0%

2025-05-19-insights

最近刷新出来了超多AAAI文风的工作,不知道是不是因为开会期间把没挂arxiv的文章一口气挂出来了

Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs

一篇math场景prm的工作,作者发现已有的math prm一般都没什么正收益,而且在题目本身变得困难时假阳性特别高(容易把错误的题目判成正确)。

似乎rm 假阳性这个问题,每个rm工作都提到了,这背后有什么原因呢?