2024-07-11-insights

发表于 2024-07-15 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 475 阅读时长 ≈ 1 分钟

感觉现在进入VLM时代了，现在出的模型好像没谁是text-only了

PaliGemma: A versatile 3B VLM for transfer

Gemma团队的开源VLM来了。google自己做的3B小模型，benchmark分数刷的很高。他们自己的描述很有意思：It is trained to be a versatile and broadly knowledgeable base model that is effective to transfer. 另外他还有挺有趣的设计：image和text-instruction部分使用prefixLM，只有输出部分才是causal mask

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

llava团队的新作，这次瞄准的是多图输入，作者发现多图输入有四个场景：多图、视频、3D场景的多视角、一个大图切分多个小图。作者由此构造了大概1M训练数据，发现结束以后llava-interleave在各个benchmark上都达到了SOTA