2025-06-11-insights

发表于 2025-06-15 更新于 2025-06-18 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 143 阅读时长 ≈ 1 分钟

AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

这是一篇meta的safety领域的研究，作者评测了reasoning model在无法回答问题的上的表现，发现在使用long cot以后，模型的拒答率事实上下降了，变得更加危险