2024-06-06-insights

发表于 2024-06-06 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 132 阅读时长 ≈ 1 分钟

WINGS: Learning Multimodal LLMs without Text-only Forgetting

作者的目标是让VLM尽可能不遗忘纯文本领域的能力。作者提供了一个有趣的视角：作者发现对于多模态的输入，模型会更倾向于在attention中关注图片后面的文字