2025-05-07-insights 发表于 2025-05-08 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 124 阅读时长 ≈ 1 分钟 AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data 之前有篇工作讲o1只需要一条训练数据,这篇工作更绝,干脆不用题库了。作者做了一个对抗的框架,一个出题模型一个做题模型互相成长 所以说gan是对的 相关文章 本月更新(Recent Update) arxiv-insights 2025-05-09-insights 2025-05-08-insights