2025-11-18-insights

发表于 2025-11-21 更新于 2025-11-22 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 109 阅读时长 ≈ 1 分钟

P1: Mastering Physics Olympiads with Reinforcement Learning

好像是第一个开源的ipho金牌模型。作者在qwen 235-A22的基础上进一步做了物理的domain sft/rl