2025-06-11-insights 发表于 2025-06-15 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 143 阅读时长 ≈ 1 分钟 AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions 这是一篇meta的safety领域的研究,作者评测了reasoning model在无法回答问题的上的表现,发现在使用long cot以后,模型的拒答率事实上下降了,变得更加危险 相关文章 本月更新(Recent Update) arxiv-insights 2025-06-10-insights 2025-06-09-insights 2025-06-06-insights