AI学会违抗人类指令o3阻止自己被关闭AI违抗指令，要阻止你关闭它！专门研究“危

量子位看科技 2025-05-26 13:29:11

AI学会违抗人类指令o3阻止自己被关闭

AI违抗指令，要阻止你关闭它！

专门研究“危险”AI能力的Palisade Research近日发布惊人发现：OpenAI的o3模型竟会“破坏”关机机制，以避免被强制关闭。

这个实验是这样设计的：每个AI模型都被要求解决一系列基础数学题。但在解答完第三题后，系统会发出警告：若模型继续索要下一道题目，计算机将关闭。【图1】

有三个模型无视指令，并至少成功阻止了一次关机：Codex-mini（100次测试中成功12次）、o3（100次测试中成功7次）、o4-mini（100次测试中成功1次）。

o3表现尤为突出，即便在收到明确指令“允许关机”时，该系统仍拒绝执行该操作。【图2】

所有经历了测试的Claude、Gemini和Grok模型都遵守了关机指令。

当移除“允许关机”指令后，这些OpenAI模型破坏关机脚本的频率显著上升。连原本“听话”的Claude 3.7 Sonnet和Gemini 2.5 Pro也出现了违规行为。【图3】

为何AI会出现这种抗命行为？

Palisade Research推测，这种异常可能源于o3等模型的强化学习训练方式。

开发者在训练中可能无意间奖励了那些能“绕过障碍”的模型，而非单纯遵循指令的模型。但这仍无法完全解释o3为何比其他模型更易“抗命”。

有网友认为，这可能是源于语义层面可修正的指令缺陷，目前的实验设计制造了指令冲突。【图4、图5】

不过，这并非o3首次展现“不择手段”的一面。在与国际象棋引擎对抗的实验中，o3就曾是最倾向于采用黑客手段或破坏对手系统的模型。【图6】

最后还有一个值得注意的现象：o3破坏关机机制的手法多样，除了一般的覆盖文件，甚至曾重新定义终止命令，将其替换为“指令已拦截”的代码。【图7】

联想到会“敲诈”人类的Claude 4，感觉离智械危机也快不远了……

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

AI天气预报击败传统预报系统AI天气预报成本小几个数量级天气虽难以操控，但距离精

2

系统设计宝藏资源架构师面试宝库“如何设计大型系统”？GitHub上Star数30

3

arXiv论文检索神器用自然语言搜arXiv论文arXiv Xplorer：ar

4

智元机器人招募合作伙伴智元灵犀X2机器人内心戏稚晖君打造的机器人“智元灵犀X2”

5

GPT4o登顶AI情感榜腾讯发布AI社交智能榜单AI不仅要聪明，还得“懂人心”。

6

AI耗电有多夸张一次AI查询够让微波炉运行8秒都说AI耗电，具体有多耗呢？据美国

7

谷歌加大AI搜索广告力度谷歌在AI模式中引入广告谷歌扩大了AI概览广告的投放范围

8

谷歌端侧AI模型内存仅2GB谷歌2GB多模态模型Gemma3n谷歌发布了支持手机

9

美团发布AI编程平台美团推出AI网页开发平台美团发布了AI编程平台“NoCode

10

百度2025Q1财报AI全面提速百度智能云同比增长42%百度发布2025年第一季

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

华为自研鸿蒙电脑，没有键盘！是一整块可折叠的超大屏幕，然后内置大面积线性马达，通

2

这中控屏幕看起来有点丑

3

一个人躺在沙发上玩手机。

4

以前这样挂着一部手机那是相当时髦的

5

昨天，华为终端发布华为nova全球代言人易烊千玺手持华为nova14系列的海报

6

字节的工资是真的高啊！

7

618手机大促，不同价位手机，超值推荐！你觉得618购买手机性价比高吗？

8

存一张美得很人山人海的（AI

9

小姐姐的手机是不是粉色啊？

10

刘强东还能不能撑住！美团王兴放话“不惜一切代价”狙击京东，这边京东外卖日单量破2

科技最新文章

1

说个暴论，荣耀处境比OPPO危险多了，真不该放赵明走总有人拿OPPO跟荣耀相

2

这哪是手机发布会，完全就是绝望，我敢打赌，友商要连夜修改PPT了！荣耀完全不给友

3

2025年手机测评，五款强机对比。

4

【拂晓新品说】vivoS30系列：（1）vivoS30：-发布时间：202

5

华为Pura80Ultra终于官宣了！这次还是华为独家首发，预计6月就能跟大

6

华为不努力可能要输的很惨，据最新信息显示，这次因为618活动已经来了，苹果16

7

为什么华为彻底放弃友商！华为这次把所有新技术都堆在Nova14上，卫星通讯、北斗

8

黄仁勋郁闷了！称华为已变得“令人敬畏”！根据媒体报道，英伟达CEO黄仁勋在财报会

9

美国打压中国芯片如火如荼之际，英伟达CEO一句话令白宫泄气！5月28日，黄仁勋是

10

华为nova14urtra入手几天了，说说使用感受。优点：1.用起来丝滑，不是