2025-02-11-insights

总算是把过年出去玩欠的账补回来了，总体来说，一共有三天（1.31, 2.4, 2.5）的论文再也回不来了，可能这就是天道有缺吧……

Confidence Improves Self-Consistency in LLMs

o1出来以后，consistency这种传统test time scaling领域好像关注度一下变低了。这篇是一个改进self-consistency的工作，作者发现在投票时，直接把模型生成的ppl做加权，就会比正常的consistency做的好

怎么感觉有点眼熟，去年有个叫more agents is all you need的工作，好像也在讲这个

这篇工作挺有趣的，是一篇合成数据的工作。作者想要让LLM自动合成web navigation的数据，就让模型自己根据网站生成query，自己做，再自己打分，最后把做的比较好的query训练回去。发现通过这种方案，提升了下游任务的效果。

这个领域，最近有AgentTrek，OS-Genesis都挺不错的。

这篇工作和我们TARS做的有点像，作者构造了一套先sft再reft的方案，在Androidcontrol训练集训完以后，去androidworld在线测试集测试，把好的trace训回去。发现通过这种方案，大致可以继续提高模型的效果