MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
meta的工作,一篇生成理解统一模型方向的论文,就是4o那种端到端的decoder-only。作者发现了一些有趣的结论:
- 图片生成能力可以由一个VLM理解能力快速地激发出来,只需要少量数据
- 同样是数据,理解类数据(生成文本)的数据效率比生图类数据效率高
所以这个模型的名字和方法名字不一致吗……
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
一篇o1的综述论文,作者归纳了想要用非蒸馏方法实现o1-like model的四个关键因素,然后梳理了每个方向下的相关论文。