0%

2025-03-21-insights

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

一篇grounding benchmark的工作,最近从screenspot v1/v2/pro,其实陆续都上难度了。rico系列的benchmark渐渐都被淘汰了

从最近的benchmark分析,大家都开始关注 perfessional software这个领域了,去思考gui agent能不能在专业软件上使用。其实这里是一个打垂类的产品思路,也不知道好不好

Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

谁引用我推荐谁!作者把已有的react-agent称为prefilling-only,作者做出了一个简单的改进:能不能先开temperature生成几个样本,再用verify验证哪个是得分最高的,最后执行得分最高的action。通过这种方法,作者提分不少。