2025-11-18-insights 发表于 2025-11-21 更新于 2025-11-22 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 109 阅读时长 ≈ 1 分钟 P1: Mastering Physics Olympiads with Reinforcement Learning 好像是第一个开源的ipho金牌模型。作者在qwen 235-A22的基础上进一步做了物理的domain sft/rl 相关文章 本月更新(Recent Update) arxiv-insights 2025-11-17-insights 2025-11-14-insights 2025-11-13-insights