2025-07-09-insights

发表于 2025-07-11 更新于 2025-07-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 331 阅读时长 ≈ 1 分钟

GTA1: GUI Test-time Scaling Agent

这是一篇GUI Agent的工作，作者做了一个grounding rl，然后用o3做planner，把OSWorld刷到了45分。作者搞了个re sample策略，每次让o3说很多个action，然后自己选一个最好的。通过这种方式，还继续提高plan的效果

这篇工作名字很牛，实际很数学，是一篇Adam优化器收敛性的文章。自从Adam火了以后，有很多理论工作来分析为什么adam收敛快，但分析的结果其实都不太好，解释不了adam的性能。这篇工作尝试从另一个视角来分析收敛性。

没看懂，但大受震撼