2025-05-19-insights 发表于 2025-05-20 更新于 2025-05-22 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 222 阅读时长 ≈ 1 分钟 最近刷新出来了超多AAAI文风的工作,不知道是不是因为开会期间把没挂arxiv的文章一口气挂出来了 Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs 一篇math场景prm的工作,作者发现已有的math prm一般都没什么正收益,而且在题目本身变得困难时假阳性特别高(容易把错误的题目判成正确)。 似乎rm 假阳性这个问题,每个rm工作都提到了,这背后有什么原因呢? 相关文章 本月更新(Recent Update) arxiv-insights 2025-05-16-insights 2025-05-15-insights 2025-05-14-insights