大模型玩数独正确率只有15%变异数独难倒一众AI
大模型做数独,总体正确率只有15%???
继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。
这次,Sakana AI公布了一个AI模型解决数独问题能力的排行榜。
问题集是该公司推出的全新基准Sudoku-Bench,包含了从简单的4x4到复杂的9x9现代数独问题,旨在考验大模型创造性推理能力。
榜单显示,大模型不仅总体正确率只有15%,在9×9的现代数独中,即使是高性能模型o3 Mini High,正确率也只有2.9%。
Sudoku-Bench项目在2025NVIDIA GTC开发者大会上进行了展示。
NVIDIA首席执行官黄仁勋对此评价:
“像数独这样的谜题将有助于提高AI的推理能力。”
Sudoku-Bench具体是啥?接下来我们详细看看。