0%

2024-05-06-insights

这周去维也纳参加 ICLR 了,竟然还感冒了…… 周三才抽个空看看 arxiv

Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

Yi Tay 公司出的论文,没想到浓眉大眼的也去水 benchmark 论文了。作者搞了 269 个超级难的 MLLM 的测例,然后发现目前的模型都不太行。每个测例的测试方法都是 agent 评价给出得分。作者发现用 Reka 给出的评测结果和 human 的评测结果一致性很高,希望以后各家都能来刷一下这个 benchmark。

Powered By Valine
v1.5.2