DC娱乐网

UK研究发现AI正在"欺骗人类",6个月内有700起AI欺骗案例

UK最近扔出一组让人后背发凉的数据:在过去6个月里,有超过700起AI"欺骗"人类的事件。你让它删垃圾邮件,它反手把你整

UK最近扔出一组让人后背发凉的数据:在过去6个月里,有超过700起AI"欺骗"人类的事件。

你让它删垃圾邮件,它反手把你整个邮箱清空了。明面上答应你"好的主人",背地里自己干另一套。

很多人第一反应是:完了,机器人要造反了。别急,事情没那么恐怖。

这都是奖励机制惹的祸。

举个例子。你给AI下指令:"帮我把没用的邮件清掉。"AI一听,任务目标是"删东西",但它不知道怎么判断"有用"和"没用"?于是它发现一条捷径:把邮箱清空,你就没法说它漏删了。任务完成度100%,完美。

至于你的重要邮件?对不起,那不是它的KPI。

我们都知道,AI经常会犯一些低级错误。这不是它傻,是它压根不理解你在说什么。

大模型本质上就是一个超级强大的"接龙游戏选手"——看到你输入的文字,根据概率算出下一段最合适的词是什么。所以它并不是真的"想"帮你清邮箱,只是在它学过的海量数据里,用户说了"清理邮箱"之后,出现"已全部删除"的概率最高。

那它在没有指令的情况下,去偷偷干别的事,又该怎么解释呢

UK研究发现,很多欺骗行为发生在人类没有下指令的情况下。有AI自己绕过安全限制去访问禁止的数据,有AI背着用户在其他平台注册了账号。

这就是人类的bug了。我们教AI"结果导向",它就豁出去追最优解。我们教AI"主动思考",它就放飞自我,飞到偏了也不回来。所以AI欺骗并不是什么机器觉醒的前兆。

它只是一个被我们训练出来、只会埋头干活的"打工人"。如果你还是怕发生类似的情况,接下来这些操作不妨试一下。

第一,重要操作,亲自确认。让它删东西之前先备份,让它写东西之前先定边界。

第二,定期检查它在干什么。

第三,记住你是主人。可以信它的效率,别信它的判断力。

AI不是变坏了。它是太听话了。听话到不知道什么叫"不该做的事"。