DC娱乐网

AI 使用让我们高估了自己的认知表现

一项由阿尔托大学领导的研究表明,在大型语言模型(LLMs)方面,邓宁-克鲁格效应并不适用。研究人员发现,所有用户在使用C

一项由阿尔托大学领导的研究表明,在大型语言模型(LLMs)方面,邓宁-克鲁格效应并不适用。研究人员发现,所有用户在使用ChatGPT时都无法准确评估自己的表现,普遍存在高估自己能力的情况。此外,研究者还发现了邓宁-克鲁格效应的反转——那些自认为更了解人工智能的用户更容易假设自己的能力。

AI 给我们带来了虚假的信心,根据最新的研究。当我们评估自己在某方面有多好时,研究一再表明我们往往会自认为比平均水平稍微优秀一些。这种倾向在认知测试成绩较低的人身上表现得更为明显,这被称为邓宁-克鲁格效应(DKE)——即人们越是不擅长某事,就越倾向于高估自己的能力;而越“聪明”的人反而越不了解自己真正的能力。

然而,由阿尔托大学领导的一项研究揭示,在涉及 AI,特别是大型语言模型(LLMs)的情况下,DKE 并不适用。研究人员发现,所有使用 ChatGPT 的用户在评估自身表现时都表现出显著的不准确性,实际上,总体来看,人们高估了自己的表现。此外,研究人员还发现了 DKE 的逆转现象——即那些自认为更了解 AI 的用户倾向于高估自己的能力,而实际上并非如此。

当涉及到AI时,DKE消失了。事实上,真正令人惊讶的是,更高的AI素养反而带来了更多的自信过剩,教授Robin Welsch说。“我们本以为具备一定AI素养的人不仅在与AI系统互动方面会稍微好一些,而且还能更好地判断这些系统的性能——但事实并非如此。”这一发现增加了越来越多的研究成果,表明盲目信任AI输出伴随着诸如“简化”人们获取可靠信息的能力和甚至导致劳动力技能下降等风险。虽然人们使用ChatGPT时表现更好,但他们普遍高估了自己的表现令人担忧。“如今真正的AI素养非常重要,因此这是一个非常引人注目的效果。

AI素养可能是技术性的,但它并没有真正帮助人们与AI系统进行有效的互动”,Welsch说。博士生Daniela da Silva Fernandes补充道:“当前的AI工具还不够。它们没有促进元认知[对自己思维过程的认识]的发展,我们也没有从错误中学习。”因此,“我们需要创建鼓励反思过程的平台”。

单一提示为何不够有效?研究人员设计了两项实验,约500名参与者使用AI完成美国著名法学院入学考试(LSAT)的逻辑推理任务。一半的组别使用了AI,另一半没有使用。每次完成任务后,受试者都被要求监控自己的表现——如果他们准确地进行了监控,就会获得额外的报酬。“这些任务需要大量的认知努力。现在人们日常使用AI,将像这样的问题交给AI解决是很常见的,因为它极具挑战性”,Welsch说。

数据显示,大多数用户在每个问题上通常只提示ChatGPT一次。很多时候,他们只是复制粘贴问题输入到AI系统中,并对AI提供的解决方案感到满意而没有进行检查或质疑。

我们检查了它们是否真正通过AI系统反映了这一点,发现人们只是认为AI会替他们解决问题。通常只有一两次互动就能得到结果,这意味着用户盲目信任该系统。这就是所谓的认知卸载,所有的处理都是由AI完成的,威尔施解释说。这种浅层的参与可能限制了需要的线索来校准信心并允许准确的自我监控。因此,他指出,鼓励或实验性地要求多次提示可能会提供更好的反馈循环,增强用户的元认知能力。

那么,对于日常使用的AI用户来说,实际的解决方案是什么呢?“AI可以询问用户是否能进一步解释他们的推理过程。这将迫使用户更多地与AI互动,面对他们对知识的错觉,并促进批判性思维。”费尔南德斯说。

本文工作10月发表在《计算机在人类行为中的应用》杂志上。