MMSearch-R1: Incentivizing LMMs to Search
这也是一个做setting的文章。这篇工作考虑的是传统vqa任务,如果能让模型搜google 图片搜索同时文字搜索,可以训练一个search agent吗?作者试了一下,跑了个grpo,发现确实可以,而且效果很好
感觉AI真的进入下半场了,做setting的文章变得越来越多了
Mobile-R1: Towards Interactive Reinforcement Learning for VLM-Based Mobile Agent via Task-Level Rewards
好久不见GUI Agent RL相关工作,作者做了先单步rl+再多步rl的setting,不过就跑了15步GRPO?