UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
一篇 grounding benchmark 的工作,最近从 screenspot v1/v2/pro,其实陆续都上难度了。rico 系列的 benchmark 渐渐都被淘汰了
从最近的 benchmark 分析,大家都开始关注 perfessional software 这个领域了,去思考 gui agent 能不能在专业软件上使用。其实这里是一个打垂类的产品思路,也不知道好不好
Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment
谁引用我推荐谁!作者把已有的 react-agent 称为 prefilling-only,作者做出了一个简单的改进:能不能先开 temperature 生成几个样本,再用 verify 验证哪个是得分最高的,最后执行得分最高的 action。通过这种方法,作者提分不少。
v1.5.2