Anthropic 对递归自我改进越来越认真了！现在经常使用自动化编程的，应该都

Anthropic 对递归自我改进越来越认真了！

现在经常使用自动化编程的，应该都会有

一句话：加速。

疯狂的博客文章。x

•我们即将迎来一种能够完全自主设计并构建自身后继者的 AI

•他们强调这尚未到来，也并非不可避免，但可能比大多数机构准备好的时间来得更早

•Anthropic 工程师现在每季度平均交付的代码量是 2021–2025 年的 8 倍

•AI 能可靠完成的任务长度大约每 4 个月翻一番（之前是每 7 个月）

•Opus 3（2024 年 3 月）能处理约 4 分钟的任务；Sonnet 3.7（一年后）约 90 分钟的任务；Opus 4.6（再一年后）12 小时的任务

•SWE-bench 从个位数低位到饱和用了两年；CORE-bench（研究再现）从约 20% 到饱和用了 15 个月

•METR 发现 Claude Mythos Preview 能工作“至少”16 小时，达到了他们目前能测量的上限

•截至 2026 年 5 月，Claude 撰写了并入 Anthropic 代码库的 80%+ 代码（Claude Code 于 2025 年 2 月推出前是低个位数）

•2026 年 3 月对 130 名研究人员的民调：中位受访者估计 Mythos Preview 能带来约 4 倍产出

•2026 年 4 月的一个例子：Claude 交付了 800+ 项修复，将一类 API 错误减少了 1,000 倍，一位工程师估计人类需要四年才能完成这项工作

•Claude 撰写的代码质量：2025 年末逊于人类，现在大致持平，预计年内将严格优于人类

•在最难的开放式任务上，Claude 的成功率在 2026 年 5 月达到 76%，六个月内提升了 50 个百分点

•代码加速测试：Opus 4 平均加速约 3 倍（2025 年 5 月），Mythos Preview 约 52 倍（2026 年 4 月）；熟练人类需要 4–8 小时才能达到 4 倍

•在一个 AI 安全研究项目中，Claude 代理恢复了 97% 的性能差距（相比之下，两名人类研究员一周内仅 ~23%），耗费超过 800 计算小时和约 1.8 万美元

•在研究会议中挑选更好的“下一步”时，最佳模型击败人类选择的比例为 51%（2025 年 11 月，Opus 4.5），上升至 64%（2026 年 4 月，Mythos Preview）

•人类的比较优势，至少目前：研究品味和判断力，即选择哪些问题重要，以及何时判断一种方法是死胡同

三种可能的未来

•趋势停滞（S 曲线），但当今能力仍会广泛扩散；他们认为这是最不可能的

•复合效率提升，人类仍设定方向；100 人公司完成 10,000+ 人规模的工作；他们认为这是最可能的路径

•完全递归自我改进，AI 构建其后继者，节奏由计算资源决定；这里的对齐结果是他们最不确定的

DC娱乐网