0%

2024-06-06-insights

WINGS: Learning Multimodal LLMs without Text-only Forgetting

作者的目标是让VLM尽可能不遗忘纯文本领域的能力。作者提供了一个有趣的视角:作者发现对于多模态的输入,模型会更倾向于在attention中关注图片后面的文字