Classification Done Right for Vision-Language Pre-Training
z 字节的工作,昨天出了 rar,今天又来一手。作者提了一个巨简单的方法:如果有了 image-caption 对,直接把 caption 里面的 token 去掉 position 后当做 bag of word,变成一个把图片到词表空间的分类任务会怎么样呢?作者发现,这个 loss 的效果甚至很好。
why? 所以一切都是 yolo……
Inference Optimal VLMs Need Only One Visual Token but Larger Models
一篇研究 VLM inference optimal 的工作,作者探索了在同样的 FLop 下,应该选择大模型,少 image token;还是小模型,多 image token。通过实验,作者发现不管 budget 开多大,总是大模型的效果倾向于更好。
这是不是代表着,目前的模型都没有特别认真的去看图像信息……
v1.5.2