0%

2025-06-06-insights

VIDEOMOLMO: Spatio-Temporal Grounding Meets Pointing

之前VLM领域有篇很好的工作叫molmo,是让人录音讲图片caption,同时一边在图片上画出一些点坐标。这篇工作在视频领域做了类似的事情,但是sam2。

meta财大气粗,录音做了1M 数据……感觉视频领域谁愿意花钱也这么搞1M,估计性能直接起飞了

PlayerOne: Egocentric World Simulator

游戏画面生成的工作很火,今天来了个真实世界的。给出初试图片,和action sequence,就能生成第一人称的视频。

新时代的机器翻译……

TreeRPO: Tree Relative Policy Optimization

如果大家记得之前deepseek做得mathshepherd,这是他的rl版本。作者在想:传统的grpo里面是对比多个样本的最终结果来获得advantage。那如果换成让这些样本连成一棵树,然后用结果reward归纳成为一些中间的score,模拟会更准确吗?