这周二,情况好起来了,只更新了600多篇
Playing with Transformer at 30+ FPS via Next-Frame Diffusion
30帧的视频生成模型,但是310M参数。作者用了block-wise causal attention的方式做生成,这样可以在block之间并行生成来加速。甚至,作者还加了投机的trick。
看起来这个市场,是不是只有30fps以上才有意义
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
如果大家还记得前几天的entropy mechanism,这篇qwen team的动作进一步发现:cot trace里80%的token的entropy很低,模型本来就是极大概率只说top1的词。但反而是entropy很低的那些token对结果的影响最大。从这里出发,作者尝试只在entropy很高的token里加loss,发现训出来效果更好。
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning
推荐一下组里的工作:一篇端测风格的GUI Agent的工作。作者在8B模型上探索了Mobile GUI Agent,训练了grounding能力,着重增强了中文APP的操作能力。
最近其实比较少看到全流程覆盖的GUI工作,准备训练数据确实是一个产研结合的问题。