0%

2025-05-07-insights

AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data

之前有篇工作讲o1只需要一条训练数据,这篇工作更绝,干脆不用题库了。作者做了一个对抗的框架,一个出题模型一个做题模型互相成长

所以说gan是对的