0%

2024-12-19-insights

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

meta的工作,一篇生成理解统一模型方向的论文,就是4o那种端到端的decoder-only。作者发现了一些有趣的结论:

  1. 图片生成能力可以由一个VLM理解能力快速地激发出来,只需要少量数据
  2. 同样是数据,理解类数据(生成文本)的数据效率比生图类数据效率高

所以这个模型的名字和方法名字不一致吗……

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

一篇o1的综述论文,作者归纳了想要用非蒸馏方法实现o1-like model的四个关键因素,然后梳理了每个方向下的相关论文。