DC娱乐网

谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局大模型最让人崩溃的,不是

谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局

大模型最让人崩溃的,不是它答错了,而是它答错的时候一脸笃定。

你问一个事实性问题,模型给你一个条理分明、信心满满的回答,你信了,结果全是编的。这种“自信的错误”,比承认不知道更有害。因为用户会把猜测当结论用,在不该信任的地方建立信任。

上周,谷歌研究团队在即将发表于 ICML 2026 的论文中提出了一个新框架,叫“忠实不确定性”(Faithful Uncertainty)。核心主张很简单:AI 不需要完美无错,但需要诚实表达自己的不确定性。

这个主张改变了我们对待大模型幻觉的根本思路。

【幻觉的真实代价:效用税】

过去两年,消除幻觉的主流思路是两极化的:要么让模型什么都答,要么让它遇到不确定就闭嘴。前者牺牲可信度,后者牺牲可用性。

谷歌论文用数据戳穿了这个两难:当你试图把 25% 的底层错误率压到 5%,你必须扔掉 52% 的正确答案。换句话说,为了消灭少数错误,你把大半个模型的知识库废掉了。

论文作者 Gal Yona 说得很直接:大多数减少幻觉的方案之所以没有真正上线,是因为它们确实减少了幻觉,但同时也让模型拒绝回答它本来就知道的问题。

这个代价,论文称之为“效用税”(Utility Tax)。现实中的产品经理不可能接受一个动不动就说“我不知道”的助手,于是系统就被推回那个“自信地胡说八道”的旧模式。

【重新定义幻觉:自信的错误才可怕】

论文的核心洞察是:幻觉的本质不是“错了”,而是“错了还装作确定”。

一个医生告诉你“你有骨折”,这是确定诊断。同一个医生说“可能是扭伤,但我们需要拍个片子确认”,这是诚实的猜测。两种情况都可能是对的或错的,但后者建立的是不同类型的信任。

谷歌团队据此把模型输出分成了两类:

1. 自信错误(Confident Error):模型很确定地给出了错误答案。这就是传统意义上的幻觉。2. 诚实猜测(Honest Guess):模型不太确定,但明确表达了不确定性。“我猜可能是 X,建议你再查一下。”这不是幻觉,这是有用的假设。

区分这两类的关键在于:模型的语言表达是否忠实地反映了它的内部置信度。

【忠实不确定性:让 AI 学会说“我不太确定,但我的猜测是”】

忠实不确定性要求模型做到一件事:用自然语言表达的不确定性,必须和模型内部统计置信度对齐。

这听起来简单,做起来难。因为大模型天生有一种“权威语气倾向”,训练数据里大量文本都是确定性的陈述,很少包含“我不太确定但我觉得”这样的表达。所以模型会在低置信度的情况下,依然输出绝对化的表述。

MetaFaith 是谷歌另一个相关研究项目的名字,专门训练模型在自然语言中忠实地表达不确定性。它不是简单地给回答加个免责声明,而是让模型在特定问题上校准自己的置信表达:高置信度的问题给确定回答,低置信度的问题给带限定的回答。

关键发现是:模型并非不知道自己不确定。它的内部概率分布已经包含了不确定性信息,只是在生成文本时被“抹平”了。忠实不确定性就是把这些内部信号翻译成用户能理解的语言。

【对 Agent 系统意味着什么】

如果你只是用 ChatGPT 聊天,忠实不确定性是一个体验改进。但如果你在构建 AI Agent 系统,它就是一个架构级的需求。

论文指出了一个被广泛忽视的问题:外部工具调用让忠实不确定性变得更加重要,而非更不重要。

直觉上,既然 Agent 可以搜索、查数据库、调 API,知道自己不知道还重要吗?重要,因为搜索什么时候触发、信任什么来源、何时停止检索,全靠模型的元认知(Metacognition)来判断。

没有忠实不确定性,Agent 会犯两种错误:

1. 对自己已知的问题重复搜索,浪费延迟和成本。2. 对自己不确定的问题盲目自信,跳过搜索直接输出错误答案。

今天的 Agent 框架试图用外部启发式规则解决这些问题,比如“总是先搜索”或“置信度低于 0.7 就查一下”。但这些都是静态的、脆弱的补丁。真正可靠的做法,是让模型自己知道何时需要帮助。

【实操启示:从今天开始怎么做】

如果你在做大模型产品或 Agent 开发,这项研究有几个可以直接落地的启发:

1. 不要只追求幻觉归零。如果你的评估指标只看错误率,你会被迫接受巨大的效用损失。应该同时追踪“诚实猜测”的比例,让模型在有把握的领域自信作答,在不确定的领域坦诚标注。

2. 在提示词中加入不确定性表达指令。比如:“如果不确定,请明确说明你的置信度,用‘我猜测’‘可能是’‘根据有限信息判断’等限定词。”这不是完美的忠实不确定性,但在当前模型能力下是一个低成本的近似。

3. 在 Agent 流程中用元认知做路由判断。让模型在输出结果前先输出一个内部判断:对这个回答的置信度是多少?高置信度走直出路径,低置信度触发工具调用。这比“一律搜索”或“一律不搜”都更高效。

4. 评估体系要区分“错误”和“自信的错误”。同样的错误答案,配上限定词的版本远比绝对化表述的版本危害小。你的评估函数应该对这两者打不同的分。

【为什么这篇论文值得关注】

这篇论文的意义不在于提出了一个新算法,而在于重新定义了问题。

过去几年,整个行业都在追一个目标:让 AI 不犯错。但这个目标本身就导致了效用税的困局。谷歌的研究团队把目标从“消除错误”换成了“诚实表达不确定性”,这个切换让原本不可能的权衡变得可以解决。

对于正在构建 AI Agent 的开发者来说,这篇论文提醒了一件事:你的系统可靠性不只取决于模型知道多少,更取决于模型是否知道自己不知道什么。而这个“知道自己不知道”的能力,才是 Agent 从“能用”到“可靠”的关键跨越。

论文已被 ICML 2026 Position Track 接收,作者来自谷歌和特拉维夫大学。

AI技术智能体工程