中美顶级AI模型相差2.7%，鸿沟已消失

撰文| 涂彦平

编辑| 张南

设计| 荆芥

AI领域的年度快照来了。

4月14日，斯坦福大学发布《AI指数2026年度报告》。这是它第九次推出AI指数年度报告。自2017年以来，AI指数一直在跟踪该领域的发展，衡量从技术能力和研究成果到社会影响和公众感知的一切。

今年的AI指数报告显示，AI的能力正在迅速发展，但人们衡量和管理它们的能力却存在差距。

AI模型在科学和复杂推理方面取得了突破性成果，但也带来了令人担忧的环境代价。与此同时，AI对劳动力的颠覆已经从预测转变为现实，年轻人首当其冲。

这份423页的报告信息密度够大，关注AI的人不容错过。

以下是《轩辕科技评论》从中摘录的23个切面，覆盖中美竞争、技术能力、负责任AI、经济产业、教育、算力环境等多个维度。

01「中美AI竞争格局」

1.中美AI模型性能差距基本消失

中国已经成为美国人工智能的重要制衡力量。自2025年初以来，两国模型在性能排名顶端多次交替领先。2025年2月，DeepSeek-R1短暂追平美国顶尖模型。

截至2026年3月，美国顶级模型（Anthropic的Claude Opus 4.6）仅领先中国顶级模型（字节跳动的Dola-Seed-2.0 Preview）2.7%，差距在过去一年中始终保持在个位数。

2.美国在知名模型产出上领先，中国在学术与专利规模上反超

2025年，美国发布50款“知名AI模型”，中国为30款。但中国在论文发表量、引用量、专利授权总量上均居全球首位。2024年中国占全球AI专利授权量的74.2%，美国仅占12.1%。在引用量最高的前100篇AI论文中，中国从2021年的33篇增至2024年的41篇。

3.美国私人AI投资是中国的23倍，但中国实际投入被低估

2025年美国私人AI投资达2859亿美元，中国为124亿美元。但2000—2023年间，中国政府引导基金累计向AI公司投入约1840亿美元。报告表示：仅基于私人投资的比较可能低估了中国投入人工智能的资本规模。

4.美国AI人才吸引力断崖式下降

自2017年以来，迁往美国的AI研究人员和开发者数量下降89%，仅过去一年就下降80%。尽管美国仍是AI人才总量最多的国家，但吸引新人才的速度为十多年来最低。

5.中国在负责任AI研究上反超美国

2025年，中国在被接受的负责任AI会议论文数量上以812篇领先，美国为394篇。而2024年美国还以788篇领先中国的322篇。这个逆转来得有点剧烈。

6.中国工业机器人安装量超世界其他地区总和

2024年中国安装29.5万台工业机器人，占全球54%，是日本（4.45万台）的6倍，美国（3.42万台）的8.6倍。差距较2023年进一步扩大，但并不令人意外。

7.美国拥有全球绝大多数AI数据中心

美国有5427个数据中心，是其他任何国家的10倍以上。台积电几乎制造所有领先AI芯片，全球硬件供应链高度依赖中国台湾这家代工厂（尽管台积电美国工厂2025年已开始扩展）。

02「全球AI能力发展」

8.AI能力呈现“锯齿状前沿”

AI持续扩展其能力，在各类基准测试中取得更高分数。根据Terminal-Bench 的数据，处理真实任务的智能代理成功率从 2025 年的 20%提升到如今的77.3%，而处理网络安全问题的AI智能代理解决问题的比例为 93%，而2024年的仅15%。

但并非所有能力都分布均匀。在很多任务上，AI落后，包括从视频中学习、生成连贯且真实的视频、计时、管理多步规划、进行财务分析以及回答某些专家级学术考试。

在ClockBench上，顶级模型读取模拟时钟准确率仅为50.1%，而人类为约90%。机器人在实际家务中仅能完成12%，比如叠衣服或洗碗。

9.顶尖模型性能趋于融合

截至2026年3月，Anthropic（1503分）、xAI（1495分）、Google（1494分）、OpenAI（1481分）、阿里巴巴（1449分）、DeepSeek（1424分）在Arena Elo评分中差距均在25分以内。模型之间的竞争转向成本、可靠性和领域特定性能。

10.AI代理从回答问题转向完成任务

在OSWorld（跨操作系统真实计算机任务）基准上，AI代理成功率从约12%提升至66.3%，与人类表现相差不到6个百分点，但仍有约三分之一失败。

03「负责任AI的挑战」

11.AI安全事故增加

记录在案的AI事件持续增加，AI事件数据库记录的事件数量从2024年的233起增至2025年的362起。几乎所有前沿模型都报告能力基准成绩，但关于负责任AI基准的报告寥寥无几。

不过，好的一面是，2025年，专门负责AI治理的职位增长17%，而未制定负责任的AI政策的企业比例从24%下降至11%。

12.模型透明度持续下降

包括 OpenAI、Anthropic和 Google 在内的多个资源密集型系统，已不再披露训练代码、参数数量、数据集大小和训练时长。2023—2024年，基础模型透明度指数平均分从37升至58，但2025年降至40。

13.模型难以区分知识与信念的差异

在一项新的准确性基准测试中，26个顶级模型的幻觉率从22%到94%不等。当错误陈述被呈现为用户相信的内容时，模型性能崩溃。在对抗性提示下，所有模型的安全评级均下降。

04「经济与产业」

14.全球企业AI投资翻倍，生成式AI占半壁江山

2025年全球企业人工智能投资达到5817亿美元，较上一年增长130%。与此同时，私人投资达到3447亿美元，较2024年增长了127.5%，目前占总投资的60%。

生成式AI增长超200%，占所有私人AI资金近一半。新获融资AI公司数量增长71%，十亿美元级融资事件几乎翻番。

15.生成式AI三年内普及率达53%，快于PC和互联网

各国采用率差异明显，且与人均GDP高度相关，但新加坡（61%）、阿联酋（54%）的采用率超出收入水平的预期。美国采用率仅28.3%，排名第24位。

16.消费者从免费AI工具中获得巨大价值

截至2026年初，生成式AI对美国消费者的估计价值达1720亿美元/年，较上年增长54%。大多数工具仍免费或接近免费。

17.AI已开始冲击就业市场

22至25岁的软件开发者就业人数较2024年下降近20%，而资深开发者需求持续增长。尽管整体看尚未显示出大规模失业现象，但仍有三分之一的机构预计，AI将在未来一年内导致其裁员。承认吧，这场颠覆是有针对性的，而且才刚刚开始。

18.AI生产力提升在结构化工作中最显著

客户支持效率提升14%-15%，软件开发提升26%，营销产出提升50%。需要深度推理的任务提升较小，且过度依赖AI可能带来长期的学习代价，导致技能发展随时间推移而放缓。

05「其他」

19.政策滞后于AI普及

超过80%的美国高中和大学生使用AI完成学校任务，但仅一半初中和高中有AI政策，只有6%的教师认为政策明确。

20.专家与公众看法分裂

73%的AI专家预期AI对工作方式产生积极影响，公众仅23%。在AI对经济和医疗的影响上也存在类似50个百分点的差距。

21.全球对AI监管的信任分化

53%的受访者信任欧盟有效监管AI，美国和中国分别为37%和27%。美国对自己政府监管AI的信任度最低，仅31%。中国和印尼对AI兴奋度最高（紧张度低于50%），北美和欧洲兴奋度低、紧张度高。

22.全球AI计算容量年增3.3倍

自2022年以来，全球AI计算容量以每年约3.3倍的速度增长，达1710万H100等效设备。英伟达占总计算量60%以上，华为占比虽小但持续增长。

23.AI环境足迹快速扩大

2025年，训练xAI的Grok 4产生约72816吨二氧化碳当量，相当于约1000辆汽车整个生命周期排放。全球AI数据中心电力容量达29.6GW，与纽约州峰值用电相当。仅GPT-4o推理的年用水量就可能超过1200万人的饮用水需求。

DC娱乐网

中美顶级AI模型相差2.7%，鸿沟已消失

热门分类