2025-09-10-insights

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

seed出的一篇visual cot领域的工作。这个场景是让模型去通过放大缩小图片，来研究图片里是否包含一些信息。作者做了一个算法上的改进，在多轮rl过程中，如果遇到模型hit max iteration时没有提交任务，这条数据就不训练，而不是按照0分赋值。这是因为这些样本实际上“不一定”是坏样本，可能只是budget给的不够。作者把这个设计叫做over-turn mask

对于overlong样本如何处理，现在学术界似乎分化出了几派观点。有人会mask，有人会罚分，有人会给一个soft punish做一下线性的reward衰减，还有人直接在system prompt里说明budget让模型学习去自己研究budget…不知道有没有谁可以把这个问题比较本质的解决？有点像是之前大家最开始给量子论打补丁的样子…

∆L Normalization: RETHINK LOSS AGGREGATION IN RLVR

刚说完multi-agent中length的问题，这篇工作就是在讲length问题带来的loss aggregation。作者想解决的核心问题是：一个batch里的各个traj，大家的length差距很大，该如何给每个token做loss权重，才能让每个人都公平呢？作者在这篇工作了给了很多数学，最后推导出了一个看上去很公平的算法

Instruction Agent: Enhancing Agent with Expert Demonstration

这篇工作虽然图画得比较简陋，但是事情挺有意思的。作者在GUI Benchmark OSWorld上尝试了让模型follow每个题目，人写的过程指导。发现在给出正确指导的情况下，模型在70%以上的情况下都可以把本来不会做的题目做对

这个方向在几个月前有几篇和tutorial learning相关的工作，但是再后面似乎就没有做这个方向了。我一直很喜欢，之前想出一篇阅读笔记梳理来着

CAViAR: Critic-Augmented Video Agentic Reasoning

这是一篇deepmind参与的、有点奇怪的工作，有点像是回到了o1刚出来时大家做reason module时的讨论。作者希望模型可以把thought表达成一种类似代码的形态⬇️，准确来说是如果遇到了真的代码，是可以真的跑代码的。用这个方法来做video reason任务

话说如果alphaelove/昨天的software那些 tree search/进化的工作可以work，那这种形态的东西可能反而更适合了？