2024-03-04-insights

发表于 2024-03-05 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 211 阅读时长 ≈ 1 分钟

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models

作者发现，目前的MLLM虽然有vision能力，但是对于很精确很学术的内容分析能力并不强。所以作者基于6M的arxiv论文里的图片，用GPT-4V标注了一个arxiv论文图片的QA dataset，发现在这上面finetune的模型的能力极大的提高了