大模型玩数独正确率只有15%变异数独难倒一众AI大模型做数独，总体正确率只有15

大模型玩数独正确率只有15%变异数独难倒一众AI

大模型做数独，总体正确率只有15%？？？

继出场自带十篇完整学术论文的史上首个“AI科学家”之后，Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。

这次，Sakana AI公布了一个AI模型解决数独问题能力的排行榜。

问题集是该公司推出的全新基准Sudoku-Bench，包含了从简单的4x4到复杂的9x9现代数独问题，旨在考验大模型创造性推理能力。

榜单显示，大模型不仅总体正确率只有15%，在9×9的现代数独中，即使是高性能模型o3 Mini High，正确率也只有2.9%。

Sudoku-Bench项目在2025NVIDIA GTC开发者大会上进行了展示。

NVIDIA首席执行官黄仁勋对此评价：

“像数独这样的谜题将有助于提高AI的推理能力。”

Sudoku-Bench具体是啥？接下来我们详细看看。

DC娱乐网