GTA1: GUI Test-time Scaling Agent
这是一篇GUI Agent的工作,作者做了一个grounding rl,然后用o3做planner,把OSWorld刷到了45分。作者搞了个re sample策略,每次让o3说很多个action,然后自己选一个最好的。通过这种方式,还继续提高plan的效果
Simple Convergence Proof of Adam From a Sign-like Descent Perspective
这篇工作名字很牛,实际很数学,是一篇Adam优化器收敛性的文章。自从Adam火了以后,有很多理论工作来分析为什么adam收敛快,但分析的结果其实都不太好,解释不了adam的性能。这篇工作尝试从另一个视角来分析收敛性。
没看懂,但大受震撼