2025-03-21-insights

发表于 2025-03-21 更新于 2025-03-26 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 444 阅读时长 ≈ 1 分钟

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

一篇grounding benchmark的工作，最近从screenspot v1/v2/pro，其实陆续都上难度了。rico系列的benchmark渐渐都被淘汰了

从最近的benchmark分析，大家都开始关注 perfessional software这个领域了，去思考gui agent能不能在专业软件上使用。其实这里是一个打垂类的产品思路，也不知道好不好

谁引用我推荐谁！作者把已有的react-agent称为prefilling-only，作者做出了一个简单的改进：能不能先开temperature生成几个样本，再用verify验证哪个是得分最高的，最后执行得分最高的action。通过这种方法，作者提分不少。