2024-04-02-insights

发表于 2024-04-02 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 526 阅读时长 ≈ 1 分钟

159篇，重量级

Evaluating Text-to-Visual Generation with Image-to-Text Generation

Neubig的论文。作者发现目前text2image大家还是再用CLIPscore做评测。CLIPscore效果很差，毕竟是双塔。作者想，现在大家VQA模型都这么好了，能不能用VQA模型的"yes" logits做评测呢？答案是可以，并且效果巨好。

感觉就Neubig适合做这个论文……别人提个这种新东西估计没人follow

微软的工作，酸了，人家做实验可以finetune GPT4：作者探索了在out-domain场景下，用scaling SFT数据的方式提升模型能力是否可行。作者发现scaling数据量的提升有限，但是scaling fact的提升更高效

Satbility AI的新code模型。比较"Open"的工作，作者详细讲了训练数据的构造、预处理，然后各种超参数的对比。最后训出来了效果不错的模型，开源了checkpoint。