2024-11-04-insights

Randomized Autoregressive Visual Generation

字节的工作，作者发现，在auto-regressive生成过程中，简单地做一下数据增强，把不同的image patch打乱顺序，竟然可以提升生成的效果？

why

作者发现，已有的工作基本只会把CoT中的结果做评价，而不关注rational的正确性。作者提了一个概念叫做double-correct。即过程和结果都正确。作者构造了一个数据集，可以自动化地给出正确的mutl-hop rational，由此训了个模型。

感觉这个观点和openAI那个"don't supervise thought"有点冲突，不知道哪边更有道理……

一篇挺好玩的小品工作：作者考虑到，在vlm中，模型能不能在信息不够的情况下主动对人的照片提出一些建议，进而更好的获取信息。作者设计了一套pipeline，发现训练的模型确实效果不错

前两天有个生成Minecraft游戏的初创公司，今天挂出来一篇一样的。作者找了150个游戏的视频，用4o标了caption，训了一个模型可以玩"假游戏"。

感觉GameGen真是个好方向啊，感觉有点变成scaling的比拼了

一篇综述文章，瞄准了AI+Game，作者调研了已有的GPT game的工作，发现大致分为以下几种：

感觉还挺好玩的……claude computer use出来以后，有没有来一波claude玩游戏的