2024-11-18-insights

发表于 2024-11-18 更新于 2024-11-21 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 505 阅读时长 ≈ 1 分钟

LLaVA-o1: Let Vision Language Models Reason Step-by-Step

这名字起得挺好……作者合成了100k的vlm long reasoning数据，主要是拆分推理步骤变成了一个推理原子的集合，发现训出来的模型在reasoning task上提升挺明显的。

不知道这种推理原子论对不对，有一波人在这么做

这篇论文有点罕见，是Jeff Dean的文章，目的是澄清之前对2020年工作的质疑。Google在2020年发布了一个AI设计芯片的工作，登上了nature封面。后来有人质疑结果不能复现，这次，Jeff Dean"复现"了质疑里的"不能复现"，发现复现的人的测试有bug，其实能复现

有点绕，但就是这个意思

之前gpt-4v api刚出的时候，有一篇类似的工作。这次claude computer use出了，对应的评测文章也挂出来了。