2025-06-06-insights

发表于 2025-06-12 更新于 2025-06-16 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 440 阅读时长 ≈ 1 分钟

VIDEOMOLMO: Spatio-Temporal Grounding Meets Pointing

之前VLM领域有篇很好的工作叫molmo，是让人录音讲图片caption，同时一边在图片上画出一些点坐标。这篇工作在视频领域做了类似的事情，但是sam2。

meta财大气粗，录音做了1M 数据……感觉视频领域谁愿意花钱也这么搞1M，估计性能直接起飞了

游戏画面生成的工作很火，今天来了个真实世界的。给出初试图片，和action sequence，就能生成第一人称的视频。

新时代的机器翻译……

如果大家记得之前deepseek做得mathshepherd，这是他的rl版本。作者在想：传统的grpo里面是对比多个样本的最终结果来获得advantage。那如果换成让这些样本连成一棵树，然后用结果reward归纳成为一些中间的score，模拟会更准确吗？