2025-06-11-insights 发表于 2025-06-15 更新于 2025-06-18 分类于 Arxiv-Insights 阅读次数: 0 Valine: 本文字数: 143 阅读时长 ≈ 1 分钟 AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions 这是一篇 meta 的 safety 领域的研究,作者评测了 reasoning model 在无法回答问题的上的表现,发现在使用 long cot 以后,模型的拒答率事实上下降了,变得更加危险 相关文章 本月更新 (Recent Update) arxiv-insights 2025-06-17-insights 2025-06-16-insights 2025-06-13-insights
v1.5.2