0%

2025-01-29-insights

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

这篇工作用了很多实验来证明一个简单的事情:sft对比orm-based rl,是否rl更具泛化性呢?这好像是大家一直认为的一个基本假设,但没有做过对比实验,今年有人干了,甚至是Quoc V. Le.