0%

2025-10-15-insights

这是Apple的一篇image search相关的工作,作者发现了已有image search traj里有一个问题:模型往往用一个完整的图作为数据,这样往往没什么信息量。所以作者去合成了一些让agent对图搜工具一次输入一部分图像的能力,这依赖于vlm具有基本的grounding能力