看到很多媒体转载了这个测试这届AI能考上985吗
我觉得这个测试很好啊,经常玩大模型的朋友都知道,很多模型的“跑分”是有水分的,在大模型训练过程中可以把测试集加入训练集,类似于把真题给你大模型练一遍,这样大模型跑测试集就能得到很高的分数。
但是测试集的目的,就是通过这些题目【模拟】真正世界上各种各样的任务,结果你拿到真题去训练,测试结果就不能代表大模型解决真实世界问题的能力了。
所以最新的高考题+多个阅卷老师盲测,就很有意思:
高考题一定不可能加入训练集,因为这涉及到国家机密,根本没时间训练
人类阅卷老师盲测,不知道谁是谁,卷子成绩就来自于考验今年所有学生的“题目”,具有代表性
结果很惊艳前两名都是国产模型,只差0.01分,超越海外顶级模型。
最后评出来语文状元是GLM 5.1和Gemini并列,但数学偏科;MiMo反过来,数学拉满语文差一口气。
这次12个AI一起做全国一卷的语文和数学,总分最高的MiMo考了256.3分(语文+数学),换算下来单科平均128分。这个水平如果同步到理综文综,妥妥985级别

