2025-01-29-insights 发表于 2025-01-29 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 170 阅读时长 ≈ 1 分钟 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training 这篇工作用了很多实验来证明一个简单的事情:sft对比orm-based rl,是否rl更具泛化性呢?这好像是大家一直认为的一个基本假设,但没有做过对比实验,今年有人干了,甚至是Quoc V. Le. 相关文章 本月更新(Recent Update) arxiv-insights 2025-01-30-insights 2025-01-28-insights