今天讨论一个相对小众的主题,讲讲latent dynamics model和inverse dynamics model。前几天我刷arxiv的时候刷到了一篇有趣的工作2025-01-20-insights:Video World,作者用视频生成的方式让模型学习推理,竟然还真能做?
是的……三天以及再之前的arxiv insight我没有删掉、还在的。大家从置顶的arxiv insight的链接都是可以点击的……如果你需要的话
里面提到了一个概念是latent dynamics model,正好我之前研究过一段时间inverse dynamics model,就拿在一起讲讲吧,这几天过年闲着也是闲着,就对这个领域做了一波文献调研。其实,从某种角度来看,甚至LeCun一直在说的世界模型(JEPA),和这两套东西是有点相似的🤣用Ilya的话说"And it’s basically a LDM, but rotated 90 degrees"
参考论文:
- VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
- Imitating Latent Policies from Observation
- ILPO-MP: Mode Priors Prevent Mode Collapse when Imi- tating Latent Policies from Observations
- Learning to Act Without Actions
- Genie: Generative Interactive Environments
- Latent Action Pretraining from Videos
- Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos
Imitation Learning from Observations
这个名字听起来很抽象,但其实是很符合直觉的。这个是搞rl和搞robotic的人研究的一个领域,NLP和CV好像不太看这个方向。