Imitation Learning from Observations: 从2018年到2025，什么变了？

今天讨论一个相对小众的主题，讲讲latent dynamics model和inverse dynamics model。前几天我刷arxiv的时候刷到了一篇有趣的工作2025-01-20-insights：Video World，作者用视频生成的方式让模型学习推理，竟然还真能做？

是的……三天以及再之前的arxiv insight我没有删掉、还在的。大家从置顶的arxiv insight的链接都是可以点击的……如果你需要的话

里面提到了一个概念是latent dynamics model，正好我之前研究过一段时间inverse dynamics model，就拿在一起讲讲吧，这几天过年闲着也是闲着，就对这个领域做了一波文献调研。其实，从某种角度来看，甚至LeCun一直在说的世界模型(JEPA)，和这两套东西是有点相似的🤣用Ilya的话说"And it's basically a LDM, but rotated 90 degrees"

参考论文：

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
Imitating Latent Policies from Observation
ILPO-MP: Mode Priors Prevent Mode Collapse when Imi- tating Latent Policies from Observations
Learning to Act Without Actions
Genie: Generative Interactive Environments
Latent Action Pretraining from Videos
Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos

Imitation Learning from Observations

这个名字听起来很抽象，但其实是很符合直觉的。这个是搞rl和搞robotic的人研究的一个领域，NLP和CV好像不太看这个方向。