0%

2025-05-02-insights

Visual Test-time Scaling for GUI Agent Grounding

很漂亮的工作!大家都知道o3可以把图片放大缩小来看得更清楚,gui agent可不可以呢?作者试了一下,在grounding领域,如果加了放大缩小这俩action,能变得更好吗?作者试了试在grounding rl中加了这俩action,直接把grounding效果提升了30%

model-oriented performance boost,速速加入tars 2.0!不过话说qwen2.5vl是全分辨率模型,本来也不会“看不清”,这个方法为什么会work呢?

DeepCritic: Deliberate Critique with Large Language Models

组里学长的工作,也是generative prm领域的工作,但这篇工作中,作者直接用prm800k数据集的human annotation作为rl target来进行。总体建模很漂亮!

感觉generative orm/prm 是下一个大热点呀,谁能做出第一个大poc估计能火一把(learning to reasoning without answer)

ScaleTrack: Scaling and back-tracking Automated GUI Agents

一篇有趣的文章:作者发现对于gui agent(尤其是history只有1张图片的agent)来说,模型常常会忘记历史的操作,所以作者希望训练模型去一直关注history。经过这样的训练,作者发现可以在offline和grounding测试上取得不错的效果