Randomized Autoregressive Visual Generation
字节的工作,作者发现,在auto-regressive生成过程中,简单地做一下数据增强,把不同的image patch打乱顺序,竟然可以提升生成的效果?
why
Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales
作者发现,已有的工作基本只会把CoT中的结果做评价,而不关注rational的正确性。作者提了一个概念叫做double-correct。即过程和结果都正确。作者构造了一个数据集,可以自动化地给出正确的mutl-hop rational,由此训了个模型。
感觉这个观点和openAI那个"don't supervise thought"有点冲突,不知道哪边更有道理……
Right this way: Can VLMs Guide Us to See More to Answer Questions?
一篇挺好玩的小品工作:作者考虑到,在vlm中,模型能不能在信息不够的情况下主动对人的照片提出一些建议,进而更好的获取信息。作者设计了一套pipeline,发现训练的模型确实效果不错
GameGen-X: Interactive Open-world Game Video Generation
前两天有个生成Minecraft游戏的初创公司,今天挂出来一篇一样的。作者找了150个游戏的视频,用4o标了caption,训了一个模型可以玩"假游戏"。
感觉GameGen真是个好方向啊,感觉有点变成scaling的比拼了
GPT for Games: An Updated Scoping Review (2020-2024)
一篇综述文章,瞄准了AI+Game,作者调研了已有的GPT game的工作,发现大致分为以下几种:
- 辅助游戏内容生成
- 参与游戏设计
- GPT玩游戏
- GPT模拟用户画像,帮助更好地迭代游戏
感觉还挺好玩的……claude computer use出来以后,有没有来一波claude玩游戏的