2025-05-07-insights

发表于 2025-05-08 更新于 2025-05-14 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 124 阅读时长 ≈ 1 分钟

AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

之前有篇工作讲o1只需要一条训练数据，这篇工作更绝，干脆不用题库了。作者做了一个对抗的框架，一个出题模型一个做题模型互相成长

所以说gan是对的