2024-12-09-insights

发表于 2024-12-09 更新于 2024-12-12 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 641 阅读时长 ≈ 1 分钟

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

一篇行文比较顺畅的工作，作者找到了学界已有的153个数据集，一个个核查了一下质量，然后再找VLM标注了一遍cot，再找另一个VLM核查了一下thought正确性，最后生成了一波sft数据，足足12M qa-pair，训了可以涨分。

STaR还在输出……

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

internvl-2.5的技术报告，作者直接一口气把MMMU刷过70分了，朝着o1狠狠迈进。话说我一直没怎么关注intern vl，都在关注qwen vl系列，intern系列一直做得也挺不错的

CompCap: Improving Multimodal Large Language Models with Composite Captions

meta的数据集工作，别的不说，开源数据我就点赞。这篇瞄准的叫composite image，就是之前大家说的dense-text场景，各种渲染出来的、带有文字的图片。作者构造了高质量的composite image caption pair，发现用118k caption训出来的模型，在下游任务能涨分。

虽然但是，涨点好像不太明显来着……估计没报告qwen-vl就是因为qwen已经做了这件事吧……