2025-05-19-insights

发表于 2025-05-20 更新于 2025-05-26 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 222 阅读时长 ≈ 1 分钟

最近刷新出来了超多AAAI文风的工作，不知道是不是因为开会期间把没挂arxiv的文章一口气挂出来了

Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs

一篇math场景prm的工作，作者发现已有的math prm一般都没什么正收益，而且在题目本身变得困难时假阳性特别高（容易把错误的题目判成正确）。

似乎rm 假阳性这个问题，每个rm工作都提到了，这背后有什么原因呢？