2025-10-15-insights 发表于 2025-10-16 更新于 2025-10-17 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 201 阅读时长 ≈ 1 分钟 DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search 这是Apple的一篇image search相关的工作,作者发现了已有image search traj里有一个问题:模型往往用一个完整的图作为数据,这样往往没什么信息量。所以作者去合成了一些让agent对图搜工具一次输入一部分图像的能力,这依赖于vlm具有基本的grounding能力 相关文章 本月更新(Recent Update) arxiv-insights 2025-10-14-insights 2025-10-13-insights 2025-10-10-insights