2025-01-29-insights

发表于 2025-01-29 更新于 2025-02-13 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 170 阅读时长 ≈ 1 分钟

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

这篇工作用了很多实验来证明一个简单的事情：sft对比orm-based rl，是否rl更具泛化性呢？这好像是大家一直认为的一个基本假设，但没有做过对比实验，今年有人干了，甚至是Quoc V. Le.