DC娱乐网

Cursor刚发了个AI Coding评测基准Cursor发新评测基准难哭Cla

Cursor刚发了个AI Coding评测基准Cursor发新评测基准难哭Claude 编程智能体时代,顶流Cursor举旗发布新的评测基准——

CursorBench,专门评价Cursor中不同模型谁更“智能体”(即高效执行复杂任务)。

结果你猜怎么着?曾在SWE-Bench上威名赫赫的Claude Haiku 4.5/Sonnet 4.5全部歇菜了。

Claude Haiku 4.5的分数从73.3→29.4;Claude Sonnet 4.5的分数从77.2→37.9。而这,也恰好体现了CursorBench和其他编程基准之间的区别:

SWE-Bench衡量的是程序能否解决问题,CursorBench衡量的是程序能否高效地解决问题。这种差距正是普通基准测试所无法弥补的——在真实的token约束下完成任务。

“龙虾”当道,谁都知道现在评价AI要看执行能力,而且还是要高效执行那种。

而CursorBench的出现,恰好填补了相关空白。

不过问题来了,CursorBench具体咋评的?网页链接