2024-05-10-insights 发表于 2024-05-13 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 158 阅读时长 ≈ 1 分钟 Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning 今年ICML的论文:作者认为常见的 VLM结构 里面需要把vision token拼进模型,开销太大。能不能在FFN层里面注入图片的信息?作者发现这样训出来的模型在保持开销小的同时,效果也很好 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-20-insights 2024-12-19-insights 2024-12-18-insights