2024-11-06-insights

发表于 2024-11-06 更新于 2024-11-11 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 407 阅读时长 ≈ 1 分钟

Classification Done Right for Vision-Language Pre-Training

z字节的工作，昨天出了rar，今天又来一手。作者提了一个巨简单的方法：如果有了image-caption对，直接把caption里面的token去掉position后当做bag of word，变成一个把图片到词表空间的分类任务会怎么样呢？作者发现，这个loss的效果甚至很好。

why? 所以一切都是yolo……

一篇研究VLM inference optimal的工作，作者探索了在同样的FLop下，应该选择大模型，少image token；还是小模型，多image token。通过实验，作者发现不管budget开多大，总是大模型的效果倾向于更好。

这是不是代表着，目前的模型都没有特别认真的去看图像信息……