0%

2025-02-11-insights

总算是把过年出去玩欠的账补回来了,总体来说,一共有三天(1.31, 2.4, 2.5)的论文再也回不来了,可能这就是天道有缺吧……

Confidence Improves Self-Consistency in LLMs

o1 出来以后,consistency 这种传统 test time scaling 领域好像关注度一下变低了。这篇是一个改进 self-consistency 的工作,作者发现在投票时,直接把模型生成的 ppl 做加权,就会比正常的 consistency 做的好

怎么感觉有点眼熟,去年有个叫 more agents is all you need 的工作,好像也在讲这个

Towards Internet-Scale Training For Agents

这篇工作挺有趣的,是一篇合成数据的工作。作者想要让 LLM 自动合成 web navigation 的数据,就让模型自己根据网站生成 query,自己做,再自己打分,最后把做的比较好的 query 训练回去。发现通过这种方案,提升了下游任务的效果。

这个领域,最近有 AgentTrek,OS-Genesis 都挺不错的。

AppVLM: A Lightweight Vision Language Model for Online App Control

这篇工作和我们 TARS 做的有点像,作者构造了一套先 sft 再 reft 的方案,在 Androidcontrol 训练集训完以后,去 androidworld 在线测试集测试,把好的 trace 训回去。发现通过这种方案,大致可以继续提高模型的效果

Powered By Valine
v1.5.2