Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters
看名字就知道是字节,新出的thinking translation model。作者就想把翻译这个具体的任务做好,做了很多sft/rl的探索,最后开源了一个7B的模型

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning
前几天刚出来一个kernel rl,今天又出来一篇,也是grpo。
我不太懂这个领域,不知道他们这个指标效果如何
