2024-03-04-insights 发表于 2024-03-05 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 211 阅读时长 ≈ 1 分钟 Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models 作者发现,目前的MLLM虽然有vision能力,但是对于很精确很学术的内容分析能力并不强。所以作者基于6M的arxiv论文里的图片,用GPT-4V标注了一个arxiv论文图片的QA dataset,发现在这上面finetune的模型的能力极大的提高了 相关文章 本月更新(Recent Update) arxiv-insights 2024-10-29-insights 2024-10-28-insights 2024-10-25-insights