2025-04-08-insights

发表于 2025-04-08 更新于 2025-04-11 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 280 阅读时长 ≈ 1 分钟

Rethinking Reflection in Pre-Training

之前一直有人说r1里面的aha moment是基模deepseek v3就有的，今天有人真试了一下。作者选择了不同训练周期里面的预训练模型，看看能否在给出错误cot前缀的情况下说出来“I got wrong”等词汇并最终把题目答对。结论是：即使最小的7B模型，都是有这个能力的

前几天字节出了个dapo，今天出了个VAPO，是个value-based rl算法。