0%

2025-11-18-insights

P1: Mastering Physics Olympiads with Reinforcement Learning

好像是第一个开源的ipho金牌模型。作者在qwen 235-A22的基础上进一步做了物理的domain sft/rl