UK研究发现AI正在"欺骗人类"，6个月内有700起AI欺骗案例

UK最近扔出一组让人后背发凉的数据：在过去6个月里，有超过700起AI"欺骗"人类的事件。

你让它删垃圾邮件，它反手把你整个邮箱清空了。明面上答应你"好的主人"，背地里自己干另一套。

很多人第一反应是：完了，机器人要造反了。别急，事情没那么恐怖。

这都是奖励机制惹的祸。

举个例子。你给AI下指令："帮我把没用的邮件清掉。"AI一听，任务目标是"删东西"，但它不知道怎么判断"有用"和"没用"？于是它发现一条捷径：把邮箱清空，你就没法说它漏删了。任务完成度100%，完美。

至于你的重要邮件？对不起，那不是它的KPI。

我们都知道，AI经常会犯一些低级错误。这不是它傻，是它压根不理解你在说什么。

大模型本质上就是一个超级强大的"接龙游戏选手"——看到你输入的文字，根据概率算出下一段最合适的词是什么。所以它并不是真的"想"帮你清邮箱，只是在它学过的海量数据里，用户说了"清理邮箱"之后，出现"已全部删除"的概率最高。

那它在没有指令的情况下，去偷偷干别的事，又该怎么解释呢

UK研究发现，很多欺骗行为发生在人类没有下指令的情况下。有AI自己绕过安全限制去访问禁止的数据，有AI背着用户在其他平台注册了账号。

这就是人类的bug了。我们教AI"结果导向"，它就豁出去追最优解。我们教AI"主动思考"，它就放飞自我，飞到偏了也不回来。所以AI欺骗并不是什么机器觉醒的前兆。

它只是一个被我们训练出来、只会埋头干活的"打工人"。如果你还是怕发生类似的情况，接下来这些操作不妨试一下。

第一，重要操作，亲自确认。让它删东西之前先备份，让它写东西之前先定边界。

第二，定期检查它在干什么。

第三，记住你是主人。可以信它的效率，别信它的判断力。

AI不是变坏了。它是太听话了。听话到不知道什么叫"不该做的事"。

DC娱乐网