谷歌说 AI 不该假装确定：忠实不确定性如何终结幻觉困局大模型最让人崩溃的，不是

谷歌说 AI 不该假装确定：忠实不确定性如何终结幻觉困局

大模型最让人崩溃的，不是它答错了，而是它答错的时候一脸笃定。

你问一个事实性问题，模型给你一个条理分明、信心满满的回答，你信了，结果全是编的。这种“自信的错误”，比承认不知道更有害。因为用户会把猜测当结论用，在不该信任的地方建立信任。

上周，谷歌研究团队在即将发表于 ICML 2026 的论文中提出了一个新框架，叫“忠实不确定性”（Faithful Uncertainty）。核心主张很简单：AI 不需要完美无错，但需要诚实表达自己的不确定性。

这个主张改变了我们对待大模型幻觉的根本思路。

【幻觉的真实代价：效用税】

过去两年，消除幻觉的主流思路是两极化的：要么让模型什么都答，要么让它遇到不确定就闭嘴。前者牺牲可信度，后者牺牲可用性。

谷歌论文用数据戳穿了这个两难：当你试图把 25% 的底层错误率压到 5%，你必须扔掉 52% 的正确答案。换句话说，为了消灭少数错误，你把大半个模型的知识库废掉了。

论文作者 Gal Yona 说得很直接：大多数减少幻觉的方案之所以没有真正上线，是因为它们确实减少了幻觉，但同时也让模型拒绝回答它本来就知道的问题。

这个代价，论文称之为“效用税”（Utility Tax）。现实中的产品经理不可能接受一个动不动就说“我不知道”的助手，于是系统就被推回那个“自信地胡说八道”的旧模式。

【重新定义幻觉：自信的错误才可怕】

论文的核心洞察是：幻觉的本质不是“错了”，而是“错了还装作确定”。

一个医生告诉你“你有骨折”，这是确定诊断。同一个医生说“可能是扭伤，但我们需要拍个片子确认”，这是诚实的猜测。两种情况都可能是对的或错的，但后者建立的是不同类型的信任。

谷歌团队据此把模型输出分成了两类：

1. 自信错误（Confident Error）：模型很确定地给出了错误答案。这就是传统意义上的幻觉。2. 诚实猜测（Honest Guess）：模型不太确定，但明确表达了不确定性。“我猜可能是 X，建议你再查一下。”这不是幻觉，这是有用的假设。

区分这两类的关键在于：模型的语言表达是否忠实地反映了它的内部置信度。

【忠实不确定性：让 AI 学会说“我不太确定，但我的猜测是”】

忠实不确定性要求模型做到一件事：用自然语言表达的不确定性，必须和模型内部统计置信度对齐。

这听起来简单，做起来难。因为大模型天生有一种“权威语气倾向”，训练数据里大量文本都是确定性的陈述，很少包含“我不太确定但我觉得”这样的表达。所以模型会在低置信度的情况下，依然输出绝对化的表述。

MetaFaith 是谷歌另一个相关研究项目的名字，专门训练模型在自然语言中忠实地表达不确定性。它不是简单地给回答加个免责声明，而是让模型在特定问题上校准自己的置信表达：高置信度的问题给确定回答，低置信度的问题给带限定的回答。

关键发现是：模型并非不知道自己不确定。它的内部概率分布已经包含了不确定性信息，只是在生成文本时被“抹平”了。忠实不确定性就是把这些内部信号翻译成用户能理解的语言。

【对 Agent 系统意味着什么】

如果你只是用 ChatGPT 聊天，忠实不确定性是一个体验改进。但如果你在构建 AI Agent 系统，它就是一个架构级的需求。

论文指出了一个被广泛忽视的问题：外部工具调用让忠实不确定性变得更加重要，而非更不重要。

直觉上，既然 Agent 可以搜索、查数据库、调 API，知道自己不知道还重要吗？重要，因为搜索什么时候触发、信任什么来源、何时停止检索，全靠模型的元认知（Metacognition）来判断。

没有忠实不确定性，Agent 会犯两种错误：

1. 对自己已知的问题重复搜索，浪费延迟和成本。2. 对自己不确定的问题盲目自信，跳过搜索直接输出错误答案。

今天的 Agent 框架试图用外部启发式规则解决这些问题，比如“总是先搜索”或“置信度低于 0.7 就查一下”。但这些都是静态的、脆弱的补丁。真正可靠的做法，是让模型自己知道何时需要帮助。

【实操启示：从今天开始怎么做】

如果你在做大模型产品或 Agent 开发，这项研究有几个可以直接落地的启发：

1. 不要只追求幻觉归零。如果你的评估指标只看错误率，你会被迫接受巨大的效用损失。应该同时追踪“诚实猜测”的比例，让模型在有把握的领域自信作答，在不确定的领域坦诚标注。

2. 在提示词中加入不确定性表达指令。比如：“如果不确定，请明确说明你的置信度，用‘我猜测’‘可能是’‘根据有限信息判断’等限定词。”这不是完美的忠实不确定性，但在当前模型能力下是一个低成本的近似。

3. 在 Agent 流程中用元认知做路由判断。让模型在输出结果前先输出一个内部判断：对这个回答的置信度是多少？高置信度走直出路径，低置信度触发工具调用。这比“一律搜索”或“一律不搜”都更高效。

4. 评估体系要区分“错误”和“自信的错误”。同样的错误答案，配上限定词的版本远比绝对化表述的版本危害小。你的评估函数应该对这两者打不同的分。

【为什么这篇论文值得关注】

这篇论文的意义不在于提出了一个新算法，而在于重新定义了问题。

过去几年，整个行业都在追一个目标：让 AI 不犯错。但这个目标本身就导致了效用税的困局。谷歌的研究团队把目标从“消除错误”换成了“诚实表达不确定性”，这个切换让原本不可能的权衡变得可以解决。

对于正在构建 AI Agent 的开发者来说，这篇论文提醒了一件事：你的系统可靠性不只取决于模型知道多少，更取决于模型是否知道自己不知道什么。而这个“知道自己不知道”的能力，才是 Agent 从“能用”到“可靠”的关键跨越。

论文已被 ICML 2026 Position Track 接收，作者来自谷歌和特拉维夫大学。

AI技术智能体工程

DC娱乐网