0%

2025-10-22-insights

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

蚂蚁的工作,把1T A50B的模型跑起来了单轮rl。这种scale下的工作,肯定是从数据、rollout方式到训练加速、算法创新都有的一个形态,这篇工作也差不多,可以好好读一读

话说一直比较好奇kimi、qwen、ant他们一直在做的这个1T A50,是同一个新基模吗…这个基模本身的credit最后被分给哪个组了