【[28星]AbstentionBench:大语言模型的“谨慎回答”基准测试工具

爱生活爱珂珂 2025-06-18 22:23:32

【[28星]AbstentionBench:大语言模型的“谨慎回答”基准测试工具。它能帮助评估LLM在面对无法回答的问题时的“拒绝回答”能力,这对于可靠部署LLM至关重要。亮点:1. 覆盖20个数据集,包括3个新的未明确指定推理挑战;2. 支持20种开放和封闭的LLM模型;3. 提供人类验证的评估结果,确保评估的准确性。】

'AbstentionBench: A Holistic Benchmark for LLM Abstention'

GitHub: github.com/facebookresearch/AbstentionBench

大语言模型 模型评估 人工智能 ai兴趣创作计划

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注