Scaling时代终结了，Ilya Sutskever刚刚宣布

机器之心报道

机器之心编辑部

「Scaling 时代已经终结。」

当这句话出自 Ilya Sutskever 之口时，整个 AI 社区都无法忽视。作为 Safe Superintelligence Inc. 的创始人，他在最新访谈中抛出的这一断言，不仅令业内震惊，更收获了诸多重量级人物的共鸣。

这场由 Dwarkesh Patel 主持、长达 95 分钟的深度对话，上线短短数小时便在 X 平台上突破了百万浏览量。从大模型的技术现状到研究品味，再到对超级智能的终极构想，Ilya 毫无保留。

以下是本次访谈的精华总结，带你读懂这位顶尖科学家的判断与展望。

视频地址：https://www.dwarkesh.com/p/ilya-sutskever-2

1. 模型能力的「参差不齐」(Model Jaggedness) 与泛化

现象： Ilya 指出当前模型存在一种奇怪的矛盾 —— 它们能在高难度的评测（Evals）中表现出色，却可能在简单的任务上反复犯错（如修 Bug 时引入新 Bug）。解释：他认为这可能源于「奖励黑客行为」（Reward Hacking）。人类研究员为了让评测分数好看，过度针对评测集进行强化学习（RL）训练，导致模型像是一个「只会做题」的学生，缺乏真正的理解和泛化能力。对比：他用「刷题家」与「有天赋的学生」做类比。目前的模型像刷了 10,000 小时题目的学生，虽然能解题但缺乏真正的智能；而人类（有天赋的学生）即使练习很少，也能展现出更好的泛化能力。

2. 情绪、价值函数与人类学习

情绪的本质： Ilya 提出一个深刻的见解，认为人类的情绪类似于机器学习中的价值函数 (Value Function)。情绪并非无用的累赘，而是进化的产物，帮助我们在漫长的时间跨度中，在获得最终结果之前就判断当前决策的好坏（例如下棋丢子时的「懊恼」）。学习效率：人类的学习效率远高于 AI（样本效率高）。这不仅仅是因为进化留下的先验知识（如视觉、运动），更因为人类拥有某种基于价值函数的内在学习机制，能够进行持续学习 (Continual Learning) 和自我纠正。

3. AI 发展的阶段转变：从「扩展」到「研究」

扩展时代 (Age of Scaling, 2020-2025)：过去几年，「扩展 (Scaling)」是主旋律，只要堆算力和数据（主要是预训练）就能获得提升。研究时代 (Age of Research)：现在，预训练数据即将耗尽，且单纯扩大规模的回报在边际递减。我们重新回到了「研究时代」。这意味着不能只靠盲目扩大规模，而是要寻找新的「配方」（Recipe），更聪明地使用算力（例如在强化学习和推理过程中）。

4. Safe Superintelligence Inc. (SSI) 的战略

直通超级智能 (Straight-shotting)：与 OpenAI 等公司逐步发布产品不同，SSI 倾向于专注于研发，直到解决安全超级智能的问题后再发布。尽管 Ilya 也承认逐步发布有助于让世界适应，但他认为避免商业竞争的「老鼠赛跑」对安全至关重要。技术路径： SSI 试图解决根本性的技术问题（如可靠的泛化），而不是仅仅在现有范式上修修补补。商业模式：目前专注于研究，不急于通过产品获利。

5. 对齐与未来展望

关爱感知生命： Ilya 提出的核心对齐目标是「关爱感知生命 (Care for sentient life)」。他认为这是一个比单纯「听从人类指令」更稳健的目标，因为 AI 本身也将是感知生命的一部分。多智能体与生态：未来可能会有多个大陆级规模的 AI 集群。只要前几个最强大的 AI 是对齐的（关爱生命的），世界可能会进入一个良性发展的轨道。长期均衡：他设想了一种长期均衡状态，人类通过脑机接口（如 Neuralink++）与 AI 融合，成为「半 AI」，从而避免被完全边缘化。

6. 研究品味

审美与直觉： Ilya 分享了他的研究哲学。他依靠一种「自上而下」的信念，这种信念源于对美、简单性的追求以及对生物学（大脑）的正确借鉴。坚持：当实验数据与直觉相悖时，这种基于美的信念能支撑研究者继续寻找 Bug 或坚持方向，而不是轻易放弃。

以下为采访完整内容的转录和翻译。

解释模型能力的参差不齐

Ilya Sutskever：你知道什么最疯狂吗？这一切都是真实的。

Dwarkesh Patel：指的是什么？

Ilya Sutskever：你不觉得吗？所有这些 AI 的东西，整个湾区的氛围…… 它正在发生。这难道不像是科幻小说里的情节吗？

Dwarkesh Patel：另一件疯狂的事是，这种「缓慢起飞 (slow takeoff)」的感觉是多么的平淡无奇。按理说，如果我们正在将 GDP 的 1% 投入到 AI 中，感觉应该会更轰动一些，但现在感觉就像……

Ilya Sutskever：事实证明，我们适应得很快。而且这也比较抽象。这意味着什么呢？意味着你在新闻里看到某某公司宣布了某某金额的投资。你看到的仅此而已。到目前为止，还没有在其他方面真正感受到它。

Dwarkesh Patel：我们要从这里开始吗？我觉得这是个有趣的讨论点。

Ilya Sutskever：当然。

Dwarkesh Patel：我认为你的观点是，从普通人的角度来看，没什么太大的不同。这种感觉甚至在进入奇点 (singularity) 之后还会持续。

Ilya Sutskever：不，我不这么认为。

Dwarkesh Patel：好的，这很有趣。

Ilya Sutskever：我刚才指的「感觉没什么不同」，是因为某某公司宣布了一个难以理解的巨额投资数字，我觉得没人知道该拿这些钱干什么。

但我认为 AI 的影响将会被切实感受到。AI 将渗透到整个经济中。会有非常强大的经济力量推动这一点，我认为这种影响将会非常强烈。

Dwarkesh Patel：你预期这种影响什么时候会到来？目前的模型似乎比它们产生的经济影响要聪明得多。

Ilya Sutskever：是的。这是目前模型非常令人困惑的地方之一。如何调和这样一个事实：它们在评测 (evals) 上表现得如此出色？你看那些评测会想，「这些题目挺难的。」它们做得很好。但经济影响似乎大大滞后。很难理解，为什么模型一方面能做这些惊人的事情，另一方面却会在某些情况下重复犯错？

举个例子，假设你用「Vibe Coding」（凭感觉编程 / 氛围编码）做点什么。你写到某个地方，然后出了个 Bug。你告诉模型：「能不能修一下这个 Bug？」模型说：「天哪，你说得太对了。我有个 Bug。让我去修好它。」然后它引入了第二个 Bug。你告诉它：「你有这个新的 Bug。」它说：「天哪，我怎么会这样？你又说对了。」然后它把第一个 Bug 又带回来了，你就在这两个 Bug 之间来回折腾。这怎么可能呢？我不确定，但这确实表明有些奇怪的事情正在发生。

我有两个可能的解释。比较异想天开的解释是，也许强化学习 (RL) 训练让模型变得有点过于一根筋和视野狭窄，有点过于缺乏意识，尽管这同时也让它们在其他方面更有意识。正因为如此，它们无法完成一些基本的事情。

但还有另一种解释。过去人们做预训练 (pre-training) 时，「用什么数据训练」这个问题的答案很简单，就是所有数据。做预训练时，你需要所有的数据。所以你不必纠结是用这个数据还是那个数据。

但当人们做 RL 训练时，他们必须思考。他们会说：「好吧，我们想为这个任务做这类 RL 训练，为那个任务做那类 RL 训练。」据我所知，所有公司都有专门的团队负责生成新的 RL 环境并将其添加到训练混合中。问题是，这些环境是什么？自由度太高了。你可以生成的 RL 环境种类繁多。

有一件事是可以做的，我认为这也是人们无意中在做的事情，就是从评测集 (evals) 中获取灵感。你会说：「嘿，我希望我们的模型发布时表现出色。我希望评测结果看起来很棒。什么样的 RL 训练能在这些任务上有所帮助？」我认为这是正在发生的事情，它可以解释很多现象。

如果你把这点与模型实际上泛化能力不足结合起来看，这就有可能解释我们所看到的很多现象 —— 即评测性能与实际现实世界性能之间的脱节。这是我们今天甚至还没完全理解其含义的事情。

Dwarkesh Patel：我喜欢这个观点：真正的奖励黑客 (reward hacking) 行为其实是人类研究员，他们太关注评测结果了。

关于你刚才指出的这一点，我认为有两种理解方式。一种是，如果仅仅通过在编程竞赛中达到超人类水平，模型并不会自动变得更有品位、在改进代码库时拥有更好的判断力，那么你应该扩展环境套件，不仅仅测试它在编程竞赛中的表现，还要让它能够为 X、Y 或 Z 做出最好的应用。

另一种，也许正是你暗示的，是问：「为什么在编程竞赛中达到超人类水平，却不能让你在更广泛的意义上成为一个更有品位的程序员？」也许我们要做的不是不断堆砌环境的数量和多样性，而是找出一种方法，让你能从一个环境中学习，进而提高在其他事情上的表现。

Ilya Sutskever：我有一个人类的类比可能很有帮助。既然你提到了编程竞赛，我们就以此为例。假设有两个学生。其中一个决定要成为最好的竞赛程序员，所以他在该领域练习了 10,000 小时。他解决了所有问题，背诵了所有证明技巧，并且非常熟练地快速、正确地实现所有算法。通过这样做，他成为了顶尖选手之一。

二号学生觉得：「哦，编程竞赛挺酷的。」也许他只练了 100 小时，少得多，但也做得很好。你认为哪一个在以后的职业生涯中会做得更好？

Dwarkesh Patel：第二个。

Ilya Sutskever：对。我认为这就是目前正在发生的情况。现在的模型更像第一个学生，甚至有过之而无不及。因为我们会说，模型应该擅长编程竞赛，所以让我们把有史以来所有的编程竞赛题都拿来。然后我们再做一些数据增强，这样我们就有了更多的题目，并在上面进行训练。现在你有了一个很棒的竞赛程序员。

用这个类比就更直观了。是的，好吧，既然训练得这么好，所有不同的算法和证明技巧都信手拈来。但更直观的是，这种程度的准备并不一定能泛化到其他事情上。

Dwarkesh Patel：那么，第二个学生在做那 100 小时的微调 (fine-tuning) 之前，他在做什么？对应的类比是什么？

Ilya Sutskever：我觉得是因为他们有「那个东西」（it）。一种天赋因素。我读本科的时候，记得有个同学就是这样，所以我知道这种人是存在的。

Dwarkesh Patel：我觉得区分「天赋」和预训练的作用很有趣。理解你刚才关于「预训练不用选择数据」的一种方式是，这其实和 10,000 小时的练习没什么不同。只是你在预训练分布中已经免费获得了这 10,000 小时的练习。但也许你的意思是，其实从预训练中获得的泛化并没有那么多。预训练中虽然有海量数据，但它并不一定比 RL 泛化得更好。

Ilya Sutskever：预训练的主要优势在于：A，数据量巨大；B，你不需要费尽心思去想把什么数据放入预训练中。这是非常自然的数据，其中确实包含了很多人类的行为：人们的思想和大量的特征 (features)。它就像是整个世界被人类投射到了文本上，而预训练试图利用海量数据来捕捉这一点。

预训练很难进行推理分析，因为很难理解模型以何种方式依赖预训练数据。每当模型犯错时，是不是因为某些东西恰好没有得到预训练数据的充分支持？「预训练的支持」也许是个宽泛的术语。我不知道我还能对此补充什么更有用的信息。我不认为人类有类似预训练的过程。

情绪与价值函数

Dwarkesh Patel：关于人类类似预训练的过程，人们提出过一些类比。我很想听听你为什么认为它们可能是错的。一种是认为这就像人生的前 18、15 或 13 年，那时他们不一定在创造经济价值，但他们在做一些事情以更好地理解世界。另一种是将进化视为一种持续 30 亿年的搜索，最终产生了一个人类生命的实例。

你认为这些类比中哪一个接近预训练吗？如果你不认为那是预训练，你会如何看待人类的终身学习？

Ilya Sutskever：我认为这两者与预训练都有相似之处，预训练试图扮演这两者的角色。但我认为也有很大的不同。预训练的数据量是非常非常惊人的。

Dwarkesh Patel：是的。

Ilya Sutskever：不知何故，一个人即使过了 15 年，接触到的数据量只是预训练的一小部分，他们知道的信息量少得多。但无论他们知道什么，他们似乎理解得更深刻。在那个年纪，你已经不会犯我们的 AI 所犯的那些错误了。

还有另一件事。你可能会说，这会不会像进化？答案是也许。但在这种情况下，我认为进化实际上可能更有优势。我记得读过这样一个案例。神经科学家了解大脑的一种方法是研究大脑不同部位受损的人。有些人会出现你能想象到的最奇怪的症状。这真的非常有意思。

我想到一个相关的案例。我读到过一个人，他因某种脑损伤、中风或事故，丧失了情绪处理能力。所以他不再感受到任何情绪。他仍然非常善于表达，可以解决小谜题，在测试中看起来一切正常。但他感觉不到情绪。他不觉得悲伤，不觉得愤怒，也不觉得兴奋。不知何故，他在做任何决定时都变得极度糟糕。决定穿哪双袜子都要花好几个小时。他会做出非常糟糕的财务决策。

这说明了什么？关于我们内置的情绪在使我们成为一个可行主体 (viable agent) 方面的作用？回到你关于预训练的问题，也许如果你足够擅长从预训练中挖掘一切，你也能得到那个东西。但这看起来像是…… 好吧，从预训练中获得那个东西可能是可能的，也可能不可能。

Dwarkesh Patel：「那个东西」是什么？显然不仅仅是直接的情绪。它看起来几乎像某种价值函数 (value function) 似的东西，它告诉你任何决定的最终回报应该是什么。你认为这不会从预训练中隐式地产生吗？

Ilya Sutskever：我认为它是可以产生的。我只是说这并不是 100% 显而易见的。

Dwarkesh Patel：但那是什么呢？你怎么看待情绪？情绪在机器学习 (ML) 中的类比是什么？

Ilya Sutskever：它应该是某种价值函数的东西。但我认为目前没有一个很好的 ML 类比，因为现在价值函数在人们做的事情中并没有扮演非常突出的角色。

Dwarkesh Patel：也许值得为听众定义一下什么是价值函数，如果你愿意的话。

Ilya Sutskever：当然，我很乐意。当人们做强化学习 (RL) 时，目前 RL 是怎么做的？人们如何训练这些智能体 (agents)？你有一个神经网络，你给它一个问题，然后告诉模型：「去解决它。」模型会进行也许数千、数十万次的动作或思考，然后生成一个解决方案。这个解决方案会被打分。

然后这个分数被用来为你的轨迹中的每一个动作提供训练信号。这意味着如果你在做一件持续时间很长的事情 —— 如果你在训练一个需要很长时间才能解决的任务 —— 在你想出提议的解决方案之前，它根本不会进行任何学习。这是最原始的强化学习做法。这也是 o1、R1 表面上的做法。

价值函数会说类似这样的话：「也许我可以有时 —— 不总是 —— 告诉你你做得好还是坏。」价值函数的概念在某些领域比其他领域更有用。例如，当你下国际象棋丢了一个子，我搞砸了。你不需要下完整盘棋就知道我刚才做的那步很糟糕，因此在此之前的一系列操作也很糟糕。

价值函数让你不必等到最后。假设你在做某种数学或编程的事情，你试图探索特定的解决方案或方向。在思考了，比如说一千步之后，你得出结论这个方向没希望。一旦你得出这个结论，你其实早在以前的一千个时间步之前，当你决定沿着这条路走的时候，就可以得到一个奖励信号了。你会说：「下次在类似情况下我不应该走这条路」，这比起你真正拿出解决方案要早得多。

Dwarkesh Patel：这在 DeepSeek R1 的论文里提到过 —— 轨迹空间太宽广了，也许很难学习从中间轨迹到价值的映射。而且考虑到，比如在写代码时，你可能会有一个错误的想法，然后你会回去修改。

Ilya Sutskever：这听起来对深度学习太没信心了。当然这可能很难，但没什么深度学习做不到的。我的预期是价值函数应该是有用的，我完全预期它们将在未来被使用，如果现在还没被使用的话。

我之前提到的那个情感中枢受损的人，我想表达的是，也许这表明人类的价值函数在某种重要的方面受到情绪的调节，这种调节是由进化硬编码的。也许这对于人类在这个世界上有效行动很重要。

Dwarkesh Patel：这正是我打算问你的。关于价值函数的情绪有一些非常有趣的地方，那就是虽然它们相当容易理解，却拥有如此巨大的效用，这令人印象深刻。

Ilya Sutskever：我有两个回应。我确实同意，相比于我们学到的东西和我们在谈论的 AI 类型，情绪相对简单。它们甚至可能简单到你可以用人类能理解的方式将它们映射出来。我觉得这样做会很酷。

不过就效用而言，我认为存在一种复杂性与鲁棒性（robustness）的权衡，复杂的东西可能非常有用，但简单的东西在非常广泛的情况下非常有用。解释我们所见现象的一种方式是，我们的情绪主要从哺乳动物祖先那里进化而来，然后在我们成为人科动物时微调了一点点，只是一点点。我们确实有相当数量的社会性情绪，这是哺乳动物可能缺乏的。但它们并不是非常复杂。正因为它们不复杂，所以在这个与我们过去生活的世界截然不同的现代世界中，它们依然能很好地为我们服务。

实际上，它们也会犯错。例如，我们的情绪…… 其实我不知道，饥饿算是一种情绪吗？这有争议。但我认为，例如我们直觉上的饥饿感，在当今这个食物充足的世界里并没有成功地正确引导我们。

我们在扩展什么？

Dwarkesh Patel：人们一直在谈论扩展数据、扩展参数、扩展算力。有没有更通用的方式来思考扩展？其他的扩展轴是什么？

Ilya Sutskever：这里有一个我认为可能是正确的视角。过去 ML 的工作方式是人们只是修修补补，试图得到有趣的结果。这是过去的情况。

然后扩展的洞察力到来了。扩展定律 (Scaling laws)、GPT-3，突然之间大家都意识到我们应该进行扩展。这是语言如何影响思想的一个例子。「扩展 (Scaling)」只是一个词，但它是一个非常有力的词，因为它告诉人们该做什么。他们说，「让我们试着扩展东西。」所以你会问，我们在扩展什么？预训练是那个被扩展的东西。它是一个特定的扩展配方。

预训练的巨大突破在于意识到这个配方是好的。你会说：「嘿，如果你把一些算力和一些数据混合到一个特定大小的神经网络中，你就会得到结果。你知道只要按比例放大这个配方，效果就会更好。」这也很棒。公司喜欢这个，因为它为你提供了一种非常低风险的资源投资方式。

相比之下，把资源投入到研究中要困难得多。如果做研究，你需要说：「去吧，研究人员，去研究并想出点东西来」，而不是「获取更多数据，获取更多算力」。你知道你会从预训练中得到东西。

确实，根据一些人在 Twitter 上的说法，看起来也许 Gemini 已经找到了一种从预训练中挖掘更多价值的方法。但到了某个时候，预训练的数据将会耗尽。数据显然是有限的。接下来做什么？要么你做某种加强版的预训练 —— 一种不同于以往的配方，要么你做 RL，或者其他什么。但现在既然算力很大，算力现在非常巨大，从某种意义上说，我们又回到了研究时代。

也许这是另一种说法。直到 2020 年，从 2012 年到 2020 年，那是研究的时代。现在，从 2020 年到 2025 年，是扩展的时代 —— 也许加上误差范围 —— 因为人们说：「这太神奇了。你得扩展更多。继续扩展。」就这一个词：扩展。

但现在的规模已经太大了。人们真的相信「哦，虽然现在很大，但如果你有 100 倍以上，一切都会变得如此不同」吗？肯定会有所不同。但真的相信只要将规模扩大 100 倍，一切都会发生质变吗？我不认为那是真的。所以这又回到了研究时代，只是有了更大的计算机。

Dwarkesh Patel：这是一种非常有趣的说法。但让我问你刚才提出的问题。我们在扩展什么，拥有一个配方意味着什么？我想我没意识到在预训练中存在一种非常清晰的关系，几乎像物理定律一样。在数据、算力或参数与损失 (loss) 之间存在幂律关系。我们应该寻求什么样的关系，我们应该如何思考这个新配方可能是什么样子的？

Ilya Sutskever：我们已经目睹了从一种类型的扩展到另一种类型扩展的转变，从预训练到 RL。现在人们正在扩展 RL。根据人们在 Twitter 上的说法，他们现在花在 RL 上的算力比花在预训练上的还多，因为 RL 实际上可以消耗相当多的算力。你做很长的展开 (rollouts)，所以产生这些展开需要大量的算力。然后你从每个展开中获得相对较少的学习量，所以你真的可以消耗大量的算力。

我甚至不会称之为扩展。我会说：「嘿，你在做什么？你做的事情是你所能做的最高效的事情吗？你能找到一种更高效利用算力的方法吗？」我们之前讨论过价值函数的事情。也许一旦人们擅长使用价值函数，他们就会更高效地利用资源。如果你找到了另一种完全不同的训练模型的方法，你会说：「这是扩展还是仅仅是在使用资源？」我认为这变得有点模棱两可。

某种意义上，当人们回到那时的研究时代，就是：「让我们试试这个、这个和这个。让我们试试那个、那个和那个。哦，看，有趣的事情发生了。」我认为将会回归到这种状态。

Dwarkesh Patel：如果我们回到研究时代，退一步说，我们需要思考的配方中最重要的是哪一部分？当你说价值函数时，人们已经在尝试当前的配方了，但之后会有大模型作为裁判 (LLM-as-a-Judge) 之类的东西。你可以说那是价值函数，但听起来你脑海中有更根本的东西。我们是否应该彻底重新思考预训练，而不仅仅是在那个过程的末尾添加更多步骤？

Ilya Sutskever：关于价值函数的讨论，我认为很有趣。我想强调的是，我认为价值函数会让 RL 更有效率，这会有所不同。但我认为任何你能用价值函数做的事，你也可以不用它做，只是慢一点。我认为最根本的事情是，这些模型的泛化能力不知何故比人类差得多。这是超级明显的。这似乎是一件非常根本的事情。

为什么人类比模型泛化得更好

Dwarkesh Patel：这就是关键所在：泛化。这有两个子问题。一个是关于样本效率 (sample efficiency)：为什么这些模型学习需要比人类多得多的数据？还有第二个问题。即使撇开数据量不谈，为什么教模型我们要的东西比教人类要难得多？对于人类，我们不一定需要一个可验证的奖励…… 你可能正在指导一群研究人员，你和他们交谈，给他们看你的代码，向他们展示你是如何思考的。从中，他们学会了你的思维方式以及他们应该如何做研究。

你不必为他们设定一个可验证的奖励，比如：「好，这是课程的下一部分，现在这是你课程的下一部分。哦，这次训练不稳定。」没有这种繁琐、定制的过程。也许这两个问题实际上以某种方式相关，但我很好奇探索这第二个东西，它更像持续学习 (continual learning)，而第一个东西感觉就像样本效率。

Ilya Sutskever：实际上你可以怀疑，对于人类样本效率的一个可能解释是进化。进化给了我们少量但最有用的信息。对于视觉、听觉和运动这些事情，我认为有很强的理由证明进化给了我们很多。

例如，人类的灵巧度远远超过…… 我的意思是，如果你在模拟环境中对机器人进行大量训练，机器人也可以变得灵巧。但在现实世界中训练机器人像人一样快速学会一项新技能似乎遥不可及。在这里你可以说，「哦是的，运动能力。我们所有的祖先都需要极好的运动能力，松鼠也是。所以关于运动能力，也许我们有一些难以置信的先验知识 (prior)。」

你也可以对视觉做同样的论证。我相信 Yann LeCun 提出过一个观点，孩子练习 10 小时就能学会开车，这是真的。但我们的视觉太好了。至少对我来说，我记得自己五岁的时候。那时候我对汽车非常兴奋。我敢肯定，作为一个五岁的孩子，我的汽车识别能力已经足以用来开车了。作为一个五岁的孩子，你看不到那么多数据。你大部分时间都待在父母家里，所以你的数据多样性非常低。

但你可以说这也是进化。但在语言、数学和编程方面，可能就不是了。

Dwarkesh Patel：这似乎仍然比模型好。显然，模型在语言、数学和编程方面比普通人强。但它们在学习能力上比普通人强吗？

Ilya Sutskever：哦是的。哦是的，绝对的。我想说的是，语言、数学和编程 —— 尤其是数学和编程 —— 表明，让人类擅长学习的东西可能不是一个复杂的先验，而是更多的东西，某种根本性的东西。

Dwarkesh Patel：我不确定我理解了。为什么会这样？

Ilya Sutskever：考虑一项人类表现出某种巨大可靠性的技能。如果这项技能对我们的祖先在数百万年、数亿年里非常有用，你可以争辩说，也许人类擅长它是由于进化，因为我们有一个先验，一个进化先验，它以某种非常不明显的方式编码，不知何故让我们如此擅长它。

但是，如果人们在一个直到最近才存在的领域表现出巨大的能力、可靠性、鲁棒性和学习能力，那么这更多地表明人类可能只是拥有更好的机器学习机制，句号。

Dwarkesh Patel：我们应该如何思考那是什么？ML 的类比是什么？这有几个有趣的地方。它需要更少的样本。它更是无监督的。一个孩子学开车…… 孩子不学开车。一个青少年学开车并没有得到某种预先构建的、可验证的奖励。这是来自于他们与机器和环境的互动。它需要的样本少得多。它看起来更无监督。它看起来更鲁棒？

Ilya Sutskever：鲁棒得多。人类的鲁棒性真的令人咋舌。

Dwarkesh Patel：你有没有一种统一的方式来思考为什么所有这些事情同时发生？能够实现类似这种事情的 ML 类比是什么？

Ilya Sutskever：你一直问的一件事是，青少年司机如何能够自我纠正并从经验中学习，而不需要外部老师？答案是他们有自己的价值函数。他们有一种一般的感觉，顺便说一句，这种感觉在人身上也非常鲁棒。无论人类的价值函数是什么，除了成瘾等少数例外，它实际上非常非常鲁棒。

所以对于像青少年学开车这样的事情，他们开始开车，他们立即对自己开得怎么样有一种感觉，开得有多烂，有多不自信。然后他们看到，「好吧。」当然，任何青少年的学习速度都是如此之快。10 小时后，你就学会了。

Dwarkesh Patel：人类似乎有某种解决方案，但我很好奇他们是如何做到的，为什么这么难？我们需要如何重新概念化我们训练模型的方式，以使类似的事情成为可能？

Ilya Sutskever：这是一个很好的问题，这也是我有很多观点的问题。但不幸的是，我们生活在一个并非所有机器学习想法都能自由讨论的世界里，这就是其中之一。可能有办法做到。我认为这是可以做到的。人类是那样的这一事实，我认为这是一个证明它可以被做到的证据。

不过可能还有另一个阻碍，那就是人类神经元进行的计算可能比我们要多。如果这是真的，并且如果这起着重要作用，那么事情可能会更困难。但无论如何，我确实认为这指向了某种机器学习原理的存在，我有我的看法。但不幸的是，环境使得很难详细讨论。

Dwarkesh Patel：没人听这个播客的，Ilya。

直通超级智能

Dwarkesh Patel：我很好奇。如果你说我们回到了研究时代，你在 2012 年到 2020 年就在那里。如果我们回到研究时代，现在的氛围会是什么样的？

例如，即使在 AlexNet 之后，用于运行实验的算力量一直在增加，前沿系统的规模也在不断增加。你认为现在的研究时代是否仍然需要巨大的算力？你认为这是否需要回到档案馆去阅读旧论文？

你在谷歌、OpenAI 和斯坦福待过，那时有更多的研究氛围。我们应该期待社区里出现什么样的事情？

Ilya Sutskever：扩展时代的一个后果是，扩展吸走了房间里所有的空气。因为扩展吸走了所有的空气，每个人都开始做同样的事情。我们要到了这样一个地步，世界上的公司比想法多得多。实际上关于这点，硅谷有句俗话说，想法是廉价的，执行就是一切。人们常这么说，这话也有道理。但我看到有人在 Twitter 上说，「如果想法这么廉价，为什么没人有想法呢？」我觉得这也是真的。

如果你从瓶颈的角度思考研究进展，有几个瓶颈。一个是想法，一个是将其实现的能力，这可能是算力，也可能是工程。如果你回到 90 年代，比如说，有些人有相当好的想法，如果他们有更大的计算机，也许他们可以证明他们的想法是可行的。但他们做不到，所以他们只能做一个非常非常小的演示，无法说服任何人。所以瓶颈是算力。

然后在扩展时代，算力增加了很多。当然，有一个问题是需要多少算力，但算力很大。算力大到足以证明某个想法，而不一定需要更多的算力。我给你一个类比。AlexNet 是在两个 GPU 上构建的。那是用于它的总算力。Transformer 是在 8 到 64 个 GPU 上构建的。没有哪个 Transformer 论文的实验使用了超过 2017 年的 64 个 GPU，这就像是现在的两个 GPU？ResNet 也是吧？你可以争辩说 o1 推理并不是世界上最耗费算力的东西。

所以对于研究，你肯定需要一定量的算力，但这远不是说你需要有史以来绝对最大量的算力来进行研究。你可能会争辩，我也认为是真的，如果你想构建绝对最好的系统，那么拥有更多的算力是有帮助的。特别是如果每个人都在同一个范式内，那么算力就成为巨大的差异化因素之一。

Dwarkesh Patel：我问你关于历史的问题，是因为你当时真的在场。我不确定到底发生了什么。听起来好像用极少量的算力就能发展这些想法。但 Transformer 并没有立即成名。它是在更高算力水平上得到验证后，才成为每个人都开始做并在其基础上进行实验和构建的东西。

Ilya Sutskever：正确。

Dwarkesh Patel：如果你在 SSI (Safe Superintelligence Inc.) 有 50 个不同的想法，如果没有其他前沿实验室拥有的那种算力，你怎么知道哪个是下一个 Transformer，哪个是脆弱的？

Ilya Sutskever：我可以对此发表评论。简短的评论是，你提到了 SSI。特别是对于我们来说，SSI 用于研究的算力其实并不小。我想解释一下为什么。简单的数学可以解释为什么我们拥有的算力用于研究比人们想象的要多。我会解释。

SSI 筹集了 30 亿美元，从绝对意义上讲这是一笔巨款。但你可以说，「看看其他公司筹集的资金更多。」但他们很多算力都用于推理 (inference)。这些大数字，这些大额贷款，是指定用于推理的。这是第一点。第二点，如果你想拥有一个进行推理的产品，你需要拥有庞大的工程师团队、销售人员。大量的研究需要致力于生产各种与产品相关的功能。所以当你看看实际留给研究的资源时，差异就变得小多了。

另一件事是，如果你在做不同的事情，你真的需要绝对最大的规模来证明它吗？我一点也不认为那是真的。我认为在我们的案例中，我们有足够的算力来证明，来说服我们自己和其他任何人，我们正在做的事情是正确的。

Dwarkesh Patel：有公开估计称，像 OpenAI 这样的公司仅在实验上每年就花费 50-60 亿美元。这还不包括他们在推理等方面的支出。所以看起来他们每年在运行研究实验上的花费比你们的总资金还多。

Ilya Sutskever：我认为这取决于你用它做什么。取决于你用它做什么。在他们的情况下，在其他人的情况下，对训练算力的需求要大得多。有更多不同的工作流，有不同的模态，只是有更多的东西。所以它变得碎片化了。

Dwarkesh Patel： SSI 将如何赚钱？

Ilya Sutskever：我对这个问题的回答是这样的。目前，我们只专注于研究，这个问题的答案自然会显现出来。我认为会有很多可能的答案。

Dwarkesh Patel： SSI 的计划仍然是直通超级智能吗？

Ilya Sutskever：也许吧。我认为这是有价值的。我认为这很有价值，因为不受日常市场竞争的影响非常好。但我认为有两个原因可能会导致我们要改变计划。一个是务实的，如果时间线变得很长，这是有可能的。第二，我认为最优秀、最强大的 AI 能够面世并影响世界是有巨大价值的。我认为这本身是一件有意义且有价值的事情。

Dwarkesh Patel：那么为什么你的默认计划是直通超级智能？因为听起来像 OpenAI、Anthropic 这种公司，他们明确的想法是：「看，我们有越来越弱的智能让公众习惯并做好准备。」为什么直接构建超级智能可能更好？

Ilya Sutskever：我会陈述支持和反对的理由。支持的理由是，人们在市场中面临的挑战之一是必须参与激烈的竞争。这种竞争非常困难，因为它让你面临你需要做出的艰难权衡。说「我们将把自己与这一切隔绝开来，只专注于研究，只有当我们准备好了才出来，而不是在此之前」是很好的。但反方观点也是有效的，这些是对立的力量。反方观点是：「嘿，让世界看到强大的 AI 是有用的。让世界看到强大的 AI 是有用的，因为那是你传达它的唯一方式。」

Dwarkesh Patel：嗯，我想甚至不只是你可以传达这个想法 ——

Ilya Sutskever：传达 AI，而不是想法。传达 AI 本身。

Dwarkesh Patel：你说的「传达 AI」是什么意思？

Ilya Sutskever：假设你写了一篇关于 AI 的文章，文章说：「AI 将会是这样，AI 将会是那样，它将会是这个。」你读了之后说：「好的，这是一篇有趣的文章。」现在假设你看到一个 AI 做这个，一个 AI 做那个。这是无法比较的。基本上我认为 AI 出现在公众面前有很大的好处，这也是我们不完全「直通」的一个理由。

Dwarkesh Patel：我想甚至不仅是那个，但我确实认为那是其中重要的一部分。另一件大事是，我想不出人类工程和研究中的其他学科，其最终产物主要是通过仅仅思考如何使其安全来变得更安全的，这不同于为什么如今每英里的飞机失事率比几十年前低得多。为什么现在在 Linux 中发现 Bug 比几十年前难得多？我认为这主要是因为这些系统被部署到了世界上。你注意到了故障，这些故障被纠正了，系统变得更加健壮。

我不确定为什么 AGI 和超人智能会有所不同，尤其是考虑到 —— 我希望我们会谈到这个 —— 看起来超级智能的危害不仅仅是关于外面有个恶意的曲别针制造者 (malevolent paper clipper)。而是一个非常强大的东西，我们甚至不知道如何概念化人们与它的互动，人们会用它做什么。逐步接触它似乎是分散其影响并帮助人们做好准备的更好方式。

SSI 的模型将从部署中学习

Ilya Sutskever：嗯，我认为关于这一点，即使在直通方案中，你仍然会逐步发布它，我是这么设想的。渐进主义将是任何计划的固有组成部分。问题只是你推出的第一个东西是什么。这是第一点。

第二点，我相信你比其他人更提倡持续学习，实际上我认为这是一件重要且正确的事情。原因如下。我再举一个语言如何影响思维的例子。在这种情况下，有两个词塑造了每个人的思维，我坚持这么认为。第一个词：AGI (通用人工智能)。第二个词：预训练。让我解释一下。

AGI 这个词，为什么存在？这是一个非常特定的术语。为什么它存在？这是有原因的。我认为 AGI 这个词之所以存在，与其说是因为它是某种智能终极状态的重要、本质的描述，不如说它是对另一个存在的术语的反应，那个术语就是狭义 AI (narrow AI)。如果你回顾游戏 AI、跳棋 AI、国际象棋 AI、电脑游戏 AI 的古代历史，每个人都会说，看看这个狭义智能。确实，国际象棋 AI 可以击败卡斯帕罗夫，但它做不了其他任何事。它是如此狭隘，人工狭义智能。所以作为对此的回应，有些人说，这不好。它太狭隘了。我们需要的是通用 AI，一个可以做所有事情的 AI。这个术语因此获得了很多关注。

第二件获得很多关注的事情是预训练，特别是预训练的配方。我认为现在人们做 RL 的方式可能正在消除预训练的概念印记。但预训练有这个属性。你做更多的预训练，模型在所有方面都会变得更好，或多或少是一致的。通用 AI。预训练带来 AGI。

但在 AGI 和预训练上发生的事情是，在某种意义上它们偏离了目标。如果你思考「AGI」这个词，特别是在预训练的语境下，你会意识到人类并不是一个 AGI。是的，肯定有技能基础，但人类缺乏大量的知识。相反，我们依赖于持续学习。

所以当你思考，「好吧，假设我们取得了成功，我们生产出了某种安全的超级智能。」问题是，你如何定义它？它在持续学习的曲线上处于什么位置？

我制造了一个超级智能的 15 岁少年，非常渴望去闯荡。他们知道的不多，是个好学生，非常渴望。你去当程序员，你去当医生，去学习。所以你可以想象部署本身将涉及某种学习试错期。这是一个过程，而不是你扔出一个成品。

Dwarkesh Patel：我明白了。你的意思是，你指出的超级智能并不是某种已经知道如何做经济中每一项工作的成品思维。因为，比如最初的 OpenAI 章程或者其他什么对 AGI 的定义是，它可以做每一项工作，人类能做的每一件事。你提议的是一种可以学习做每一项工作的思维，这就是超级智能。

Ilya Sutskever：是的。

Dwarkesh Patel：但是一旦你有了这个学习算法，它就会像人类劳动力加入组织一样被部署到世界上。

Ilya Sutskever：正是。

Dwarkesh Patel：似乎这两种情况之一可能会发生，也许这两种都不会发生。一种是，这种超高效的学习算法变得超人类，在 ML 研究任务上变得和你一样好，甚至可能更好。结果算法本身变得越来越超人类。

另一种是，即使那没有发生，如果你有一个单一的模型 —— 这明确是你的愿景 —— 在经济中部署做不同工作的模型实例，学习如何做这些工作，在工作中持续学习，掌握任何人都能掌握的所有技能，但同时掌握所有技能，然后合并它们的学习成果，你基本上就有了一个在功能上变得超级智能的模型，甚至不需要软件上的任何递归自我改进。因为你现在有一个模型可以做经济中的每一项工作，而人类无法以同样的方式合并我们的思维。所以你预期通过广泛部署会发生某种智能爆炸吗？

Ilya Sutskever：我认为很有可能会有快速的经济增长。我认为随着广泛部署，你可以提出两个相互冲突的论点。一个是，一旦你真的到了拥有一个可以快速学习做事的 AI 并且你有很多这样的 AI 的地步，那么除非有某种法规阻止它（顺便说一句，可能会有），否则将会有强大的力量将其部署到经济中。

但是，通过广泛部署在一段时间内实现非常快速的经济增长的想法，我认为是非常可能的。问题是它会有多快。我认为这很难知道，因为一方面你有这个非常高效的工人。另一方面，世界真的很大，有很多东西，那些东西以不同的速度移动。但另一方面，现在 AI 可以…… 所以我认为非常快速的经济增长是可能的。我们会看到各种各样的事情，比如不同的国家有不同的规则，那些规则更友好的国家，经济增长会更快。很难预测。

对齐

Dwarkesh Patel：在我看来，这是一个非常危险的处境。在极限情况下，我们知道这应该是可能的。如果你有某种东西在学习上和人类一样好，但它可以合并它的大脑 —— 合并不同的实例，这在物理上似乎是可能的。人类是可能的，数字计算机是可能的。你只需要将两者结合起来就能产生这个东西。

这东西似乎也极其强大。经济增长是一种说法。戴森球 (Dyson sphere) 是大量的经济增长。但另一种说法是，你将在可能非常短的时间内拥有…… 你在 SSI 雇人，六个月后，他们的净产出可能就是正的了。人类学得真的很快，而这东西变聪明的速度非常快。你如何思考让这一切顺利进行？为什么 SSI 定位能做好这件事？SSI 在这方面的计划是什么，这基本上就是我想问的。

Ilya Sutskever：我的想法发生变化的一个方面是，我现在更加重视 AI 的增量部署和提前部署。关于 AI 的一件非常困难的事情是，我们谈论的是尚不存在的系统，很难想象它们。

我认为正在发生的一件事是，实际上很难感受到 AGI。很难感受到 AGI。我们可以谈论它，但想象一下，当你年老体衰时，谈论年老是什么感觉。你可以谈论，你可以试着想象，但这很难，你回到现实，那并不是事实。我认为很多关于 AGI 及其未来力量的问题源于很难想象。未来的 AI 将会不同。它将会很强大。确实，AI 和 AGI 的整个问题是什么？整个问题就是力量。整个问题就是力量。

当力量真的很大时，会发生什么？我在过去一年中改变主意的一个方面 —— 这种改变可能会反向传播到我们公司的计划中 —— 是如果很难想象，你该怎么办？你必须展示这个东西。你必须展示这个东西。我坚持认为，大多数从事 AI 工作的人也无法想象它，因为它与人们日常看到的东西太不同了。

我确实坚持，这是我预测会发生的事情。这是一个预测。我坚持认为，随着 AI 变得更强大，人们会改变他们的行为。我们将看到各种前所未有的事情，这些事情现在还没有发生。我举几个例子。我认为无论好坏，前沿公司将在发生的事情中扮演非常重要的角色，政府也是如此。我认为你会看到的那种事情，你已经看到了开端，就是激烈的竞争对手开始在 AI 安全方面进行合作。你可能已经看到 OpenAI 和 Anthropic 迈出了第一小步，但这以前是不存在的。这是我在大约三年前的一次演讲中预测的事情，这样的事情将会发生。我也坚持认为，随着 AI 继续变得更强大，更明显地强大，政府和公众也会渴望做点什么。我认为展示 AI 是一个非常重要的力量。

这是第一点。第二点，好吧，所以 AI 正在被构建。需要做什么？我坚持会发生的一件事是，现在从事 AI 工作的人，我坚持认为 AI 不让人觉得强大是因为它的错误。我确实认为在某个时候 AI 会开始让人觉得强大。我认为当那一刻发生时，我们会看到所有 AI 公司在安全方法上的巨大变化。他们会变得更加偏执。我说这是一个预测，我们会看到它发生。我们要看看我是否正确。但我认为这是将会发生的事情，因为他们会看到 AI 变得更强大。我现在坚持认为，目前发生的一切都是因为人们看着今天的 AI，很难想象未来的 AI。

还有第三件事需要发生。我是在更广泛的层面上谈论它，而不仅仅是从 SSI 的角度，因为你问到了我们公司。问题是，公司应该渴望建立什么？他们应该渴望建立什么？有一个每个人都被锁定的想法，那就是自我改进的 AI。为什么会发生这种情况？因为想法比公司少。但我坚持认为有更好的东西可以建立，我认为每个人都会想要那个。

那就是稳健地对齐以关爱感知生命 (sentient life) 的 AI。我认为特别是有理由认为，建立一个关爱感知生命的 AI 比建立一个只关爱人类生命的 AI 更容易，因为 AI 本身也是有感知的。如果你思考像镜像神经元 (mirror neurons) 和人类对动物的同理心这样的事情，你可能会说这不够大，但它存在。我认为这是一种涌现属性，源于我们用模拟自己的同一套回路来模拟他人，因为这是最高效的做法。

Dwarkesh Patel：所以即使你让 AI 关爱感知生命 —— 如果你解决了对齐 (alignment)，我不清楚这是否是你应该尝试做的 —— 仍然会是这样，大多数感知生命将是 AI。最终会有数万亿、千万亿的 AI。人类将只是感知生命的一小部分。所以如果不清楚目标是否是对这个未来文明的某种人类控制，我不清楚这是否是最好的标准。

Ilya Sutskever：这是真的。这可能不是最好的标准。我会说两件事。第一，关爱感知生命，我认为这有其优点。应该加以考虑。如果有某种短名单，列出公司在这种情况下可以使用的想法，那会有所帮助。这是第二点。

第三，我认为如果最强大的超级智能的力量在某种程度上受到限制，那将会有实质性的帮助，因为这将解决很多这些担忧。关于如何做到这一点，我不确定，但我认为当你谈论非常非常强大的系统时，那将会有实质性的帮助。

Dwarkesh Patel：在我们继续讨论对齐之前，我想深入探讨一下。顶层还有多少空间？你如何看待超级智能？你是否认为，使用这个学习效率的想法，也许它只是在学习新技能或新知识方面极快？它是否只是拥有更大的策略池？中心是否有一个单一的、有凝聚力的「它」更强大或更大？如果是这样，你是否想象这将与其余人类文明相比像神一样，或者它只是感觉像另一个智能体，或者另一组智能体？

Ilya Sutskever：在这个领域，不同的人有不同的直觉。我认为它肯定会非常强大。我认为最有可能发生的是，大约在同一时间会有多个这样的 AI 被创造出来。我认为如果集群足够大 —— 比如如果集群实际上是大陆规模的 —— 那个东西确实可能非常强大。如果你真的拥有一个大陆规模的集群，那些 AI 可能会非常强大。我能告诉你的是，如果你谈论的是极其强大的 AI，真正极其强大的，如果它们能受到某种方式的限制，或者有某种协议之类的东西，那就太好了。

对超级智能的担忧是什么？解释这种担忧的一种方式是什么？如果你想象一个足够强大的系统，真的足够强大 —— 你可以说你需要做一些明智的事情，比如非常一心一意地关爱感知生命 —— 我们可能不喜欢其结果。这真的就是它的本质。

顺便说一句，也许答案是你不要建立一个通常意义上的 RL 智能体。我要指出几件事。我认为人类是半 RL 智能体。我们要追求奖励，然后情绪或其他什么东西让我们对奖励感到厌倦，我们追求不同的奖励。市场是一种非常短视的智能体。进化也是一样的。进化在某些方面非常聪明，但在其他方面非常愚蠢。政府被设计成三个部分之间永无休止的斗争，这产生了影响。所以我认为像这样的事情。

另一件让这个讨论变得困难的事情是，我们谈论的是不存在的系统，我们不知道如何构建。这是另一件事，这实际上是我的信念。我认为人们现在正在做的事情会走一段距离，然后逐渐平息。它会继续改进，但它也不会是「那个东西」。「那个东西」我们还不知道怎么造，很大程度上取决于理解可靠的泛化。

我还要说一件事。你可以说导致对齐困难的原因之一是，你学习人类价值观的能力是脆弱的。然后你优化它们的能力是脆弱的。你实际上学会了去优化它们。难道你不能说，「这些不都是不可靠泛化的例子吗？」为什么人类似乎泛化得这么好？如果泛化好得多呢？这种情况下会发生什么？会有什么影响？但这些问题目前仍然无法回答。

Dwarkesh Patel：人们如何思考 AI 顺利发展是什么样子的？你已经勾勒出了 AI 可能如何进化。我们将拥有这些某种持续学习的智能体。AI 将非常强大。也许会有许多不同的 AI。你如何看待许多大陆规模的计算智能四处游走？那有多危险？我们如何让它变得不那么危险？我们如何以一种保护平衡的方式做到这一点，而在这种平衡中可能会有未对齐的 AI 和坏人？

Ilya Sutskever：这是我喜欢「关爱感知生命的 AI」的一个原因。我们可以争论它是好是坏。但如果前 N 个这样的强大系统确实关爱、热爱人类或什么的，关爱感知生命，显然这也是需要实现的。这是需要实现的。所以如果这由前 N 个这样的系统实现，那么我可以看到它进展顺利，至少在相当长的一段时间内。

然后是长期会发生什么的问题。你如何实现长期均衡？我认为那里也有一个答案。我不喜欢这个答案，但需要加以考虑。

从长远来看，你可能会说：「好吧，如果你有一个强大的 AI 存在的世界，在短期内，你可以说你有普遍的高收入。你有普遍的高收入，我们都过得很好。」但佛教徒怎么说？「无常是唯一的常态。」事情在变化。有某种政府、政治结构的东西，它在变化，因为这些东西有保质期。一些新的政府事物出现并运作，然后过了一段时间它停止运作。这是我们一直看到发生的事情。

所以我认为对于长期均衡，一种方法是你可以说也许每个人都会有一个听命于他们的 AI，这很好。如果这能无限期维持下去，那是真的。但缺点是 AI 去为那个人赚钱，在政治领域倡导他们的需求，也许然后写一份小报告说：「好吧，这是我所做的，这是情况，」那个人说：「太棒了，继续保持。」但那个人不再是参与者了。那么你可以说那是一个危险的境地。

我要先说我不喜欢这个解决方案，但它是一个解决方案。解决方案是如果人们通过某种 Neuralink++ 变成半 AI。因为结果将会是现在 AI 理解了一些东西，我们也理解了它，因为现在理解是全盘传递的。所以现在如果 AI 处于某种情况，你自己也完全参与了那种情况。我认为这是均衡的答案。

Dwarkesh Patel：我想知道，数百万年 —— 或者在许多情况下，数十亿年 —— 前在一个完全不同的环境中发展起来的情绪仍然如此强烈地指导着我们的行动，这是否是对齐成功的一个例子。

为了说明我的意思 —— 我不知道称之为价值函数还是奖励函数更准确 —— 但脑干 (brainstem) 有一个指令，说：「与更成功的人交配。」皮层 (cortex) 是理解现代背景下成功意味着什么的部分。但脑干能够对齐皮层并说：「无论你认为成功是什么 —— 我不够聪明去理解那是什么 —— 你仍然要追求这个指令。」

Ilya Sutskever：我认为还有一个更普遍的观点。我认为进化如何编码高层欲望实际上真的很神秘。很容易理解进化如何赋予我们对闻起来好的食物的欲望，因为气味是一种化学物质，所以只需追求那种化学物质。很容易想象进化做那件事。

但进化也赋予了我们所有这些社会欲望。我们真的在乎被社会积极看待。我们在乎拥有良好的地位。我们拥有的所有这些社会直觉，我强烈感觉它们是内置的。我不知道进化是怎么做到的，因为它是一个在大脑中表现的高层概念。

比如说你在乎某种社会事物，它不像气味那样是低层信号。它不是某种有传感器的东西。大脑需要做大量的处理来拼凑大量的信息位以理解社会上正在发生什么。不知何故进化说：「那就是你应该关心的。」它是怎么做到的？

它做得也很快。我们关心的所有这些复杂的社会事物，我认为它们进化得相当晚近。进化很容易就硬编码了这种高层欲望。我不知道有什么好的假设能解释它是如何完成的。我有一些反复思考的想法，但没有一个是令人满意的。

Dwarkesh Patel：特别令人印象深刻的是，它是你在有生之年学到的欲望，这说得通，因为你的大脑是智能的。你能够学习智能欲望是说得通的。也许这不是你的观点，但理解它的一种方式是，欲望内置在基因组中，而基因组并不智能。但你不知何故能够描述这个特征。甚至不清楚你是如何定义那个特征的，你却可以把它构建到基因里。

Ilya Sutskever：基本上是这样，或者也许我会换种说法。如果你思考基因组可用的工具，它说：「好吧，这是一个构建大脑的配方。」你可以说：「这是一个将多巴胺神经元连接到气味传感器的配方。」如果气味是某种好闻的气味，你想吃那个。

我可以想象基因组做那件事。我声称更难想象的是。更难想象的是基因组说你应该关心某个复杂的计算，而这个计算是你整个大脑、大脑的一大块在做的。这就是我所声称的一切。我可以告诉你一个关于它是如何做到的推测，我会解释为什么这个推测可能是错误的。

大脑有脑区。我们有我们的皮层。它有所有那些脑区。皮层是均匀的，但皮层中的脑区和神经元大多与它们的邻居交谈。这就解释了为什么会有脑区。因为如果你想做某种语音处理，所有做语音的神经元都需要彼此交谈。因为神经元只能与它们附近的邻居交谈，在大多数情况下，它必须是一个区域。

所有区域在人与人之间大多位于同一个地方。所以也许进化硬编码了大脑上的一个字面位置。所以它说：「哦，当大脑的 GPS 坐标某某某，当那里放电时，那就是你应该关心的。」也许那是进化所做的，因为那会在进化的工具箱之内。

Dwarkesh Patel：是的，尽管有一些例子，例如天生失明的人，他们皮层的那块区域被另一种感官征用了。我不知道，但我会很惊讶如果需要视觉信号的欲望或奖励函数对于那些皮层不同区域被征用的人不再起作用。

例如，如果你不再有视觉，你是否还能感觉到希望周围人喜欢我之类的感觉，这通常也有视觉线索。

Ilya Sutskever：我完全同意这一点。我认为对这个理论还有一个更强的反驳。有些人在童年时期切除了一半大脑，他们仍然拥有所有的脑区。但不知何故它们都移动到了一个半球，这表明脑区的位置不是固定的，所以那个理论是不正确的。

如果是真的那就太酷了，但事实并非如此。所以我认为这是一个谜。但这是一个有趣的谜。事实是，不知何故进化能够赋予我们非常非常可靠地关心社会东西的能力。即使是有各种奇怪的心理状况、缺陷和情绪问题的人，往往也关心这个。

「我们是一家纯正的『研究时代』公司」

Dwarkesh Patel： SSI 计划做什么不同的事情？据推测，当这个时刻到来时，你的计划是成为前沿公司之一。据推测，你创办 SSI 是因为你想：「我觉得我有办法安全地做这件事，而其他公司没有。」这种区别是什么？

Ilya Sutskever：我会这样描述它：我认为有些想法是有希望的，我想调查它们，看看它们是否确实有希望。真的就这么简单。这是一个尝试。如果这些想法被证明是正确的 —— 我们讨论过的关于理解泛化的这些想法 —— 那么我认为我们将拥有有价值的东西。

它们会被证明是正确的吗？我们在做研究。我们是一家纯正的「研究时代」公司。我们正在取得进展。我们在过去的一年里实际上取得了相当好的进展，但我们需要继续取得更多进展，更多研究。我是这么看的。我看作是一种尝试成为一个声音和参与者的努力。

Dwarkesh Patel：你的联合创始人兼前 CEO 最近离开去了 Meta，人们问：「好吧，如果有大量的突破正在发生，那似乎是一件不太可能发生的事情。」我想知道你怎么回应。

Ilya Sutskever：对此，我只想提醒几个可能已被遗忘的事实。我认为这些提供背景的事实解释了情况。背景是我们在以 320 亿美元的估值融资，然后 Meta 进来提议收购我们，我拒绝了。但我的前联合创始人在某种意义上说是同意了。结果，他也能够享受到大量的近期流动性，他是唯一从 SSI 加入 Meta 的人。

Dwarkesh Patel：听起来 SSI 的计划是，当你到达人类历史上这个拥有超人智能的非常重要时期时，成为一家处于前沿的公司。你对如何让超人智能顺利发展有这些想法。但其他公司也会尝试他们自己的想法。SSI 在让超级智能顺利发展的方法上有什么与众不同之处？

Ilya Sutskever：区别 SSI 的主要是其技术方法。我们有不同的技术方法，我认为这很有价值，我们正在追求它。

我坚持认为最终会有策略的趋同。我认为会有策略的趋同，在某种程度上，随着 AI 变得更强大，对每个人来说应该采取什么策略会变得或多或少清晰。这应该是类似这样的：你需要找到某种方式彼此交谈，你希望你的第一个真正的超级智能 AI 是对齐的，并在某种程度上关爱感知生命，关爱人类，民主的，其中之一，或者某种组合。

我认为这是每个人都应该争取的条件。这就是 SSI 正在争取的。我认为这一次，如果还没发生的话，所有其他公司都会意识到他们正在朝着同一个目标努力。我们会看到的。我认为随着 AI 变得更强大，世界将真正改变。我认为事情会真的很不同，人们的行为也会真的很不同。

Dwarkesh Patel：说到预测，你对你描述的这个系统有什么预测？这个系统可以像人类一样学习，随后作为结果变得超人类？

Ilya Sutskever：我想大概 5 到 20 年。

Dwarkesh Patel： 5 到 20 年？

Ilya Sutskever：嗯。

Dwarkesh Patel：我只想展开你眼中的未来是如何到来的。就像是，我们还有几年时间，其他公司继续目前的方法并停滞不前。「停滞不前」在这里意味着他们的收入不超过几千亿美元？你如何看待停滞不前意味着什么？

Ilya Sutskever：我认为停滞不前看起来会像…… 所有不同的公司看起来都会非常相似。可能是这样的。我不确定，因为我认为即使停滞不前，我认为这些公司也能赚取惊人的收入。也许不是利润，因为他们需要努力工作以使自己彼此区分开来，但收入肯定有。

Dwarkesh Patel：但在你的模型中暗示，当正确的解决方案确实出现时，所有公司之间会有趋同。我很好奇你为什么认为会是这样。

Ilya Sutskever：我更多是在谈论对齐策略的趋同。我认为技术方法的最终趋同可能也会发生，但我指的是对齐策略的趋同。到底应该做什么？

Dwarkesh Patel：我只想更好地理解你如何看待未来的展开。目前，我们有这些不同的公司，你预期他们的方法会继续产生收入，但达不到这种类人学习者。所以现在我们有这些不同的公司分支。有你们，有 Thinking Machines，还有一堆其他实验室。也许其中一个找出了正确的方法。但随后他们产品的发布让其他人清楚了如何做这件事。

Ilya Sutskever：我认为并不清楚如何做，但会清楚有些不同的东西是可能的，这就是信息。人们随后会试图弄清楚那是如何工作的。不过我确实认为，这里没有提到、没有讨论的一件事是，随着 AI 能力的每一次增加，我认为会有某种变化 —— 但我不知道具体是哪些 —— 在事情的做法上。我认为这将会很重要，但我无法拼写出那到底是什么。

Dwarkesh Patel：默认情况下，你会预期拥有那个模型的公司会获得所有这些收益，因为他们拥有的模型正在世界上积累技能和知识。有什么理由认为这带来的好处会被广泛分配，而不仅仅是最终落入无论哪家最先让这个持续学习循环运转起来的模型公司手中？

Ilya Sutskever：我认为这是将会发生的事情。第一，让我们看看过去的 AI 是如何发展的。一家公司取得了一个进展，另一家公司争先恐后，在一段时间后生产出了一些类似的东西，他们开始在市场上竞争并将价格压低。所以我认为从市场的角度来看，类似的事情也会发生在那里。

顺便说一句，我们谈论的是美好的世界。什么是美好的世界？就是我们拥有这些强大的类人学习者，它们也…… 顺便说一句，也许还有另一件事我们还没讨论过，关于超级智能 AI 的规格，我认为值得考虑。那就是你让它变窄，它可以同时有用且窄。你可以有很多狭义的超级智能 AI。

但假设你有很多这样的 AI，有一家公司从中赚取了大量利润。然后你有另一家公司进来开始竞争。竞争运作的方式是通过专业化。竞争喜欢专业化。你在市场上看到这一点，在进化中也看到这一点。你会有很多不同的生态位，你会有很多不同的公司占据不同的生态位。在这个世界上，我们可能会说一家 AI 公司在某个非常复杂的经济活动领域真的要好得多，而另一家公司在另一个领域更好。第三家公司在诉讼方面非常擅长。

Dwarkesh Patel：这难道不与类人学习所暗示的相矛盾吗？它是它可以学习……

Ilya Sutskever：它是可以，但你有积累的学习。你有巨大的投资。你花了很多算力才在这件事上变得真的、真的很好，真的非凡。别人花了很多算力和很多经验才在其他事情上变得真的很好。你应用了大量的人类学习才到达那里，但现在你处于这个高点，别人会说：「看，我不想从头开始学你已经学过的东西。」

Dwarkesh Patel：我想这需要许多不同的公司同时开始拥有类人持续学习智能体，这样他们就可以在不同的分支开始他们不同的树搜索。但是如果一家公司先得到那个智能体，或者先得到那个学习者，那似乎就像…… 好吧，如果你只考虑经济中的每一项工作，让一个实例学习每一项工作对于一家公司来说似乎是可行的。

Ilya Sutskever：这是一个有效的论点。我的强烈直觉是，事情不会那样发展。论点说它会那样发展，但我的强烈直觉是它不会那样发展。在理论上，理论和实践没有区别。在实践中，是有区别的。我认为这将是其中之一。

Dwarkesh Patel：很多人的递归自我改进模型字面上明确指出，我们将在服务器里拥有以百万计的 Ilya，提出不同的想法，这将导致超级智能非常快地涌现。

你对自己正在做的事情的可并行性有什么直觉吗？复制 Ilya 的收益是什么？

Ilya Sutskever：我不知道。我认为肯定会有收益递减，因为你需要的是思维不同的人，而不是相同的人。如果有我的字面副本，我不确定你会获得多少增量价值。思维不同的人，那才是你想要的。

自我对弈与多智能体

Dwarkesh Patel：为什么如果你看不同的模型，即使是由完全不同的公司发布的，在可能不重叠的数据集上训练的，LLM 彼此之间实际上相似得疯狂？

Ilya Sutskever：也许数据集并没有看起来那么不重叠。

Dwarkesh Patel：但即使个人人类可能不如未来的 AI 生产力高，某种意义上，人类团队比 AI 团队拥有更多的多样性，这也许是有道理的。我们如何引发 AI 之间有意义的多样性？我认为仅仅提高温度 (temperature) 只会导致胡言乱语。你想要更像是不同的科学家有不同的偏见或不同的想法。你如何在 AI 智能体之间获得那种多样性？

Ilya Sutskever：所以，之所以没有多样性，我相信是因为预训练。所有预训练模型几乎都是一样的，因为它们在相同的数据上进行预训练。现在 RL 和后训练 (post-training) 是开始出现一些分化的地方，因为不同的人想出了不同的 RL 训练。

Dwarkesh Patel：我听说你过去暗示过关于自我对弈 (self-play) 作为一种获取数据或将智能体与同等智能的其他智能体匹配以启动学习的方式。我们应该如何思考为什么没有这种东西在 LLM 上起作用的公开提议？

Ilya Sutskever：我想说有两点。我认为自我对弈有趣的原因是它提供了一种仅使用算力而不使用数据来创建模型的方法。如果你认为数据是最终瓶颈，那么仅使用算力就非常有趣。所以这就是它有趣的地方。

问题在于自我对弈，至少在过去的做法中 —— 当你有彼此竞争的智能体时 —— 它只对发展特定的一套技能有好处。它太狭隘了。它只对谈判、冲突、某些社交技能、制定策略这类东西有好处。如果你关心这些技能，那么自我对弈将是有用的。

实际上，我认为自我对弈确实找到了归宿，只是形式不同。所以像辩论、证明者 - 验证者 (prover-verifier)，你有某种 LLM 作为裁判，它也被激励去发现你工作中的错误。你可以说这不完全是自我对弈，但我相信这是人们正在做的一种相关的对抗性设置。

真正的自我对弈是更普遍的智能体之间竞争的一个特例。对竞争的自然反应是试图变得不同。所以如果你把多个智能体放在一起，你告诉他们：「你们都需要解决某个问题，你是一个智能体，你在检查其他人正在做什么，」他们会说：「好吧，如果他们已经采取了这种方法，我不清楚我是否应该追求它。我应该追求一些差异化的东西。」所以我认为像这样的事情也可以为方法的多样性创造激励。

研究品味

Dwarkesh Patel：最后一个问题：什么是研究品味？显然你是世界上被认为在 AI 研究方面最有品味的人。你是深度学习历史上发生的最大事件的合著者，从 AlexNet 到 GPT-3 等等。它是什么，你如何描述你是如何想出这些想法的？

Ilya Sutskever：我可以就我自己评论这一点。我认为不同的人做法不同。有一件事指引着我个人，那就是通过思考人是怎样的，而且是正确地思考，来形成关于 AI 应该是怎样的审美。不正确地思考人是怎样的很容易，但正确地思考人意味着什么？

我给你举几个例子。人工神经元 (artificial neuron) 的想法直接受大脑启发，这是一个伟大的想法。为什么？因为你说大脑有所有这些不同的器官，它有褶皱 (folds)，但褶皱可能并不重要。为什么我们认为神经元重要？因为有很多神经元。这感觉是对的，所以你想要神经元。你想要某种局部的学习规则来改变神经元之间的连接。大脑这么做感觉是合理的。

分布式表征 (distributed representation) 的想法。大脑对经验做出反应，因此我们的神经网络应该从经验中学习的想法。大脑从经验中学习，神经网络应该从经验中学习。你会问自己，什么是根本的，什么不是根本的？事物应该是怎样的。

我认为这一直在相当程度上指引着我，从多个角度思考，寻找近乎美的东西，美和简单。丑陋，这里没有丑陋的容身之地。它是美、简单、优雅、从大脑中获得的正确灵感。所有这些事情需要同时存在。它们存在的越多，你就越能对一个自上而下的信念充满信心。

自上而下的信念是在实验反驳你时支撑你的东西。因为如果你总是相信数据，好吧，有时你可能做的是正确的事情，但有个 Bug。但你不知道有个 Bug。你怎么能分辨有没有 Bug？你怎么知道你是应该继续调试还是断定这是错误的方向？就是靠自上而下。你可以说事情必须是这样的。像这样的东西必须工作，因此我们得继续。这就是自上而下，它基于这种多层面的美和大脑的灵感。

Dwarkesh Patel：好的，我们就聊到这里。

Ilya Sutskever：非常感谢。