2025-10-22-insights

发表于 2025-10-24 更新于 2025-11-03 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 231 阅读时长 ≈ 1 分钟

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

蚂蚁的工作，把1T A50B的模型跑起来了单轮rl。这种scale下的工作，肯定是从数据、rollout方式到训练加速、算法创新都有的一个形态，这篇工作也差不多，可以好好读一读

话说一直比较好奇kimi、qwen、ant他们一直在做的这个1T A50，是同一个新基模吗...这个基模本身的credit最后被分给哪个组了