InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
一个质量不错的小号gui grounding模型
OTC: Optimal Tool Calls via Reinforcement Learning
推荐工友和哥们的工作。前几天推荐了一个写代码做数学题的o1工作,今天这篇是在search场景通过mcp的方式调用搜索来做事实性问题的o1工作。在这篇工作中,作者特别focus在模型saying without tool的能力,也就是说:如果很简单的题,是不是可以不要搜索直接回答?