2025-04-22-insights

发表于 2025-04-25 更新于 2025-05-01 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 285 阅读时长 ≈ 1 分钟

InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners

一个质量不错的小号gui grounding模型

推荐工友和哥们的工作。前几天推荐了一个写代码做数学题的o1工作，今天这篇是在search场景通过mcp的方式调用搜索来做事实性问题的o1工作。在这篇工作中，作者特别focus在模型saying without tool的能力，也就是说：如果很简单的题，是不是可以不要搜索直接回答？