0%

2025-04-04-insights

Inference-Time Scaling for Generalist Reward Modeling

三大顶会的顶流:作者研究了generative reward model的扩展性,顺带跑通了完整的流程,从SOTA级别的rm一直到rl中的正收益。grm的正收益主要在于,对于非code/math这种有functional/binary reward的场景,可以给出有价值的反馈信号。

之前r1里提了他们几种失败的尝试,这个是不是把他们整理整理准备逐个发出来了……

MegaMath: Pushing the Limits of Open Math Corpora

我就喜欢这种朴实无华的数据集工作,作者搞了一个371B的math数据集。从text-only里用fasText筛了数学文本,再从code里筛了数学相关的,最后用前两个数据集合成了一些纯数学推理和math+code解题的数据。