LLaVA-o1: Let Vision Language Models Reason Step-by-Step
这名字起得挺好……作者合成了100k的vlm long reasoning数据,主要是拆分推理步骤变成了一个推理原子的集合,发现训出来的模型在reasoning task上提升挺明显的。
不知道这种推理原子论对不对,有一波人在这么做
That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design
这篇论文有点罕见,是Jeff Dean的文章,目的是澄清之前对2020年工作的质疑。Google在2020年发布了一个AI设计芯片的工作,登上了nature封面。后来有人质疑结果不能复现,这次,Jeff Dean"复现"了质疑里的"不能复现",发现复现的人的测试有bug,其实能复现
有点绕,但就是这个意思
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
之前gpt-4v api刚出的时候,有一篇类似的工作。这次claude computer use出了,对应的评测文章也挂出来了。