AI学会违抗人类指令o3阻止自己被关闭
AI违抗指令,要阻止你关闭它!
专门研究“危险”AI能力的Palisade Research近日发布惊人发现:OpenAI的o3模型竟会“破坏”关机机制,以避免被强制关闭。
这个实验是这样设计的:每个AI模型都被要求解决一系列基础数学题。但在解答完第三题后,系统会发出警告:若模型继续索要下一道题目,计算机将关闭。【图1】
有三个模型无视指令,并至少成功阻止了一次关机:Codex-mini(100次测试中成功12次)、o3(100次测试中成功7次)、o4-mini(100次测试中成功1次)。
o3表现尤为突出,即便在收到明确指令“允许关机”时,该系统仍拒绝执行该操作。【图2】
所有经历了测试的Claude、Gemini和Grok模型都遵守了关机指令。
当移除“允许关机”指令后,这些OpenAI模型破坏关机脚本的频率显著上升。连原本“听话”的Claude 3.7 Sonnet和Gemini 2.5 Pro也出现了违规行为。【图3】
为何AI会出现这种抗命行为?
Palisade Research推测,这种异常可能源于o3等模型的强化学习训练方式。
开发者在训练中可能无意间奖励了那些能“绕过障碍”的模型,而非单纯遵循指令的模型。但这仍无法完全解释o3为何比其他模型更易“抗命”。
有网友认为,这可能是源于语义层面可修正的指令缺陷,目前的实验设计制造了指令冲突。【图4、图5】
不过,这并非o3首次展现“不择手段”的一面。在与国际象棋引擎对抗的实验中,o3就曾是最倾向于采用黑客手段或破坏对手系统的模型。【图6】
最后还有一个值得注意的现象:o3破坏关机机制的手法多样,除了一般的覆盖文件,甚至曾重新定义终止命令,将其替换为“指令已拦截”的代码。【图7】
联想到会“敲诈”人类的Claude 4,感觉离智械危机也快不远了……