2025-01-07-insights

发表于 2025-01-07 更新于 2025-01-11 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 304 阅读时长 ≈ 1 分钟

Is Your Image a Good Storyteller?

这篇文章的角度很清奇。之前大家总是讲VLM数据是不是reasoning rich的，这里作者考虑的问题是说，图片本身是不是富含语义的？比如下面这张著名的图就富有多重语义。这篇工作试图去衡量一张图片本身的semantic richness

作者提出了一个评测PRM用的benchmark，包含6000多道数学题。这个领域之前似乎有一些工作，但是好像一直不火。不知道是不是因为prm可能需要和policy的分布绑定？