2024-05-06-insights

发表于 2024-05-08 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 261 阅读时长 ≈ 1 分钟

这周去维也纳参加ICLR了，竟然还感冒了……周三才抽个空看看arxiv

Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

Yi Tay公司出的论文，没想到浓眉大眼的也去水benchmark论文了。作者搞了269个超级难的MLLM的测例，然后发现目前的模型都不太行。每个测例的测试方法都是agent评价给出得分。作者发现用Reka给出的评测结果和human的评测结果一致性很高，希望以后各家都能来刷一下这个benchmark。