0%

2025-01-07-insights

Is Your Image a Good Storyteller?

这篇文章的角度很清奇。之前大家总是讲VLM数据是不是reasoning rich的,这里作者考虑的问题是说,图片本身是不是富含语义的?比如下面这张著名的图就富有多重语义。这篇工作试图去衡量一张图片本身的semantic richness

PRMBENCH: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

作者提出了一个评测PRM用的benchmark,包含6000多道数学题。这个领域之前似乎有一些工作,但是好像一直不火。不知道是不是因为prm可能需要和policy的分布绑定?