2025-10-15-insights

发表于 2025-10-16 更新于 2025-10-21 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 201 阅读时长 ≈ 1 分钟

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

这是Apple的一篇image search相关的工作，作者发现了已有image search traj里有一个问题：模型往往用一个完整的图作为数据，这样往往没什么信息量。所以作者去合成了一些让agent对图搜工具一次输入一部分图像的能力，这依赖于vlm具有基本的grounding能力