OpenAI左右手互搏了

是兮兮啊 2024-11-04 11:28:27
AI 大模型经常“一本正经地胡说八道”,今天OpenAI祭出了新武器—— SimpleQA,并已正式开源,这是一个全新的事实性基准测试,专门用来检测大模型回答事实性问题的准确性 而且自己打自己脸,测试结果显示o1-preview 和 Claude Sonnet 3.5 的准确率都不到 50%[doge][doge]

0 阅读:0