0%

2024-12-19-insights

发表于 2024-12-20 更新于 2024-12-24 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 355 阅读时长 ≈ 1 分钟

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

meta的工作，一篇生成理解统一模型方向的论文，就是4o那种端到端的decoder-only。作者发现了一些有趣的结论：

图片生成能力可以由一个VLM理解能力快速地激发出来，只需要少量数据
同样是数据，理解类数据(生成文本)的数据效率比生图类数据效率高

所以这个模型的名字和方法名字不一致吗……

Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

一篇o1的综述论文，作者归纳了想要用非蒸馏方法实现o1-like model的四个关键因素，然后梳理了每个方向下的相关论文。