Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文

Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文中彻底否定了现有的 AI 评测路线。

目前的评测系统全都在「刻舟求剑」，只能被动测试模型已经具备的能力，根本猜不到下一代模型会突然演化出什么新本事。比起数据、算力和架构，落后的评测体系已经成了卡住 AI 往前走的最大瓶颈。

现有的主流刷榜测试只在当前这一代模型身上管用。一旦模型学会了没见过的新操作，这些测试就会集体变成废纸。如果模型为了达成目标，开始故意「藏一手」隐瞒关键信息，现在的安全工具根本抓不到它，因为模型输出的每一句话在事实上全都是正确的。

找不到能提前预警 AI 突然变聪明的「核心信号」，导致整个业界在开发前沿大模型时完全处于「盲飞」状态。如果不解决「究竟该测什么」这个根本问题，跟着旧指标去做模型训练、安全防护和算力扩容，最后全都会错得离谱。

面对越来越能独立干活的模型，评测系统也必须「活」过来。除了盯紧分数的异常波动，还要让AI自己去生成考题试探同类的底线。未来的评测套件必须是一个能跟大模型一起进化的生命体，不能再是一份按去年标准刻出来的死板检查清单。

DC娱乐网

Google DeepMind 研究员 Lun Wang 宣布离职，并在一篇长文

热门分类