2024-08-12-insights

发表于 2024-08-16 更新于 2024-08-19 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 299 阅读时长 ≈ 1 分钟

mplug系列的第三部作品，可能有些人对这个系列不太熟悉，这个就是阿里团队主推的VLM，对标qwen的。这次的第三代作者主打的概念是长文本，或者说在vlm叫multi-image。作者设计了新的数据构造pipeline生成数据，然后设计了高效地模型结构可以处理非常多图。

这一块我看到的比较早的是llava做的llava-interleave。感觉今年下半年的学术热点准备从VLM前移到multi-image VLM，或者说videoLM了

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models