2025-05-02-insights

发表于 2025-05-04 更新于 2025-05-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 667 阅读时长 ≈ 1 分钟

Visual Test-time Scaling for GUI Agent Grounding

很漂亮的工作！大家都知道o3可以把图片放大缩小来看得更清楚，gui agent可不可以呢？作者试了一下，在grounding领域，如果加了放大缩小这俩action，能变得更好吗？作者试了试在grounding rl中加了这俩action，直接把grounding效果提升了30%

model-oriented performance boost，速速加入tars 2.0！不过话说qwen2.5vl是全分辨率模型，本来也不会“看不清”，这个方法为什么会work呢？

组里学长的工作，也是generative prm领域的工作，但这篇工作中，作者直接用prm800k数据集的human annotation作为rl target来进行。总体建模很漂亮！

感觉generative orm/prm 是下一个大热点呀，谁能做出第一个大poc估计能火一把（learning to reasoning without answer）

一篇有趣的文章：作者发现对于gui agent（尤其是history只有1张图片的agent）来说，模型常常会忘记历史的操作，所以作者希望训练模型去一直关注history。经过这样的训练，作者发现可以在offline和grounding测试上取得不错的效果