【AI的“心事”你别猜：被加密和简化的推理真相】最近关于Anthropic和Op

【AI的“心事”你别猜：被加密和简化的推理真相】

最近关于Anthropic和OpenAI隐藏模型推理过程（CoT）的讨论撕开了大模型行业的最后一道防线。简单说，你看到的那些“正在思考”的文字，其实只是AI在完成思考后，为了应付你而写的一份“思想汇报摘要”，而真正的推理逻辑被加密成了你无法读取的签名块。

厂商为什么要这么做？核心逻辑在于“防蒸馏”。推理链条是目前顶尖模型（如Claude 4.6、o1）最核心的资产，如果完整输出，竞争对手可以用这些数据低成本训练出同样聪明的开源模型。这不仅是技术护城河，更是商业生死线。

但这给开发者带来了巨大的黑盒风险。首先是安全，攻击者可能在隐藏的推理层植入指令，让AI在暗处执行数据外泄或调用函数，而用户看到的摘要却一片太平。其次是调试困境，当AI逻辑跑偏时，由于看不到真实的思考路径，你根本无法判断它是被系统提示词误导了，还是陷入了Token空转的死循环。

深度来看，这种“黑盒化”是商业利益与技术透明度的博弈。当AI逐渐从聊天工具变成代行权力的Agent，如果连它的思考逻辑都不可审计，所谓的AI对齐和安全性就成了空中楼阁。

patrickmccanna.net/the-text-in-claude-codes-extended-thinking-output-is-not-authentic/

人工智能AI创造营大模型Claude网络安全

DC娱乐网