Cursor刚发了个AI Coding评测基准Cursor发新评测基准难哭Cla

Cursor刚发了个AI Coding评测基准Cursor发新评测基准难哭Claude 编程智能体时代，顶流Cursor举旗发布新的评测基准——

CursorBench，专门评价Cursor中不同模型谁更“智能体”（即高效执行复杂任务）。

结果你猜怎么着？曾在SWE-Bench上威名赫赫的Claude Haiku 4.5/Sonnet 4.5全部歇菜了。

Claude Haiku 4.5的分数从73.3→29.4；Claude Sonnet 4.5的分数从77.2→37.9。而这，也恰好体现了CursorBench和其他编程基准之间的区别：

SWE-Bench衡量的是程序能否解决问题，CursorBench衡量的是程序能否高效地解决问题。这种差距正是普通基准测试所无法弥补的——在真实的token约束下完成任务。

“龙虾”当道，谁都知道现在评价AI要看执行能力，而且还是要高效执行那种。

而CursorBench的出现，恰好填补了相关空白。

不过问题来了，CursorBench具体咋评的？网页链接

DC娱乐网