看到很多媒体转载了这个测试这届AI能考上985吗我觉得这个测试很好啊，经常玩大模

看到很多媒体转载了这个测试这届AI能考上985吗

我觉得这个测试很好啊，经常玩大模型的朋友都知道，很多模型的“跑分”是有水分的，在大模型训练过程中可以把测试集加入训练集，类似于把真题给你大模型练一遍，这样大模型跑测试集就能得到很高的分数。

但是测试集的目的，就是通过这些题目【模拟】真正世界上各种各样的任务，结果你拿到真题去训练，测试结果就不能代表大模型解决真实世界问题的能力了。

所以最新的高考题+多个阅卷老师盲测，就很有意思：

高考题一定不可能加入训练集，因为这涉及到国家机密，根本没时间训练

人类阅卷老师盲测，不知道谁是谁，卷子成绩就来自于考验今年所有学生的“题目”，具有代表性

结果很惊艳前两名都是国产模型，只差0.01分，超越海外顶级模型。

最后评出来语文状元是GLM 5.1和Gemini并列，但数学偏科；MiMo反过来，数学拉满语文差一口气。

这次12个AI一起做全国一卷的语文和数学，总分最高的MiMo考了256.3分（语文+数学），换算下来单科平均128分。这个水平如果同步到理综文综，妥妥985级别

DC娱乐网