2024-06-06-insights 发表于 2024-06-06 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 132 阅读时长 ≈ 1 分钟 WINGS: Learning Multimodal LLMs without Text-only Forgetting 作者的目标是让VLM尽可能不遗忘纯文本领域的能力。作者提供了一个有趣的视角:作者发现对于多模态的输入,模型会更倾向于在attention中关注图片后面的文字 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-12-insights 2024-12-11-insights 2024-12-10-insights