AI学会违抗人类指令o3阻止自己被关闭AI违抗指令,要阻止你关闭它!专门研究“危

量子位看科技 2025-05-26 13:29:11

AI学会违抗人类指令o3阻止自己被关闭

AI违抗指令,要阻止你关闭它!

专门研究“危险”AI能力的Palisade Research近日发布惊人发现:OpenAI的o3模型竟会“破坏”关机机制,以避免被强制关闭。

这个实验是这样设计的:每个AI模型都被要求解决一系列基础数学题。但在解答完第三题后,系统会发出警告:若模型继续索要下一道题目,计算机将关闭。【图1】

有三个模型无视指令,并至少成功阻止了一次关机:Codex-mini(100次测试中成功12次)、o3(100次测试中成功7次)、o4-mini(100次测试中成功1次)。

o3表现尤为突出,即便在收到明确指令“允许关机”时,该系统仍拒绝执行该操作。【图2】

所有经历了测试的Claude、Gemini和Grok模型都遵守了关机指令。

当移除“允许关机”指令后,这些OpenAI模型破坏关机脚本的频率显著上升。连原本“听话”的Claude 3.7 Sonnet和Gemini 2.5 Pro也出现了违规行为。【图3】

为何AI会出现这种抗命行为?

Palisade Research推测,这种异常可能源于o3等模型的强化学习训练方式。

开发者在训练中可能无意间奖励了那些能“绕过障碍”的模型,而非单纯遵循指令的模型。但这仍无法完全解释o3为何比其他模型更易“抗命”。

有网友认为,这可能是源于语义层面可修正的指令缺陷,目前的实验设计制造了指令冲突。【图4、图5】

不过,这并非o3首次展现“不择手段”的一面。在与国际象棋引擎对抗的实验中,o3就曾是最倾向于采用黑客手段或破坏对手系统的模型。【图6】

最后还有一个值得注意的现象:o3破坏关机机制的手法多样,除了一般的覆盖文件,甚至曾重新定义终止命令,将其替换为“指令已拦截”的代码。【图7】

联想到会“敲诈”人类的Claude 4,感觉离智械危机也快不远了……

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注