0%

2024-11-04-insights

Randomized Autoregressive Visual Generation

字节的工作,作者发现,在auto-regressive生成过程中,简单地做一下数据增强,把不同的image patch打乱顺序,竟然可以提升生成的效果?

why

Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales

作者发现,已有的工作基本只会把CoT中的结果做评价,而不关注rational的正确性。作者提了一个概念叫做double-correct。即过程和结果都正确。作者构造了一个数据集,可以自动化地给出正确的mutl-hop rational,由此训了个模型。

感觉这个观点和openAI那个"don’t supervise thought"有点冲突,不知道哪边更有道理……

Right this way: Can VLMs Guide Us to See More to Answer Questions?

一篇挺好玩的小品工作:作者考虑到,在vlm中,模型能不能在信息不够的情况下主动对人的照片提出一些建议,进而更好的获取信息。作者设计了一套pipeline,发现训练的模型确实效果不错

GameGen-X: Interactive Open-world Game Video Generation

前两天有个生成Minecraft游戏的初创公司,今天挂出来一篇一样的。作者找了150个游戏的视频,用4o标了caption,训了一个模型可以玩"假游戏"。

感觉GameGen真是个好方向啊,感觉有点变成scaling的比拼了

GPT for Games: An Updated Scoping Review (2020-2024)

一篇综述文章,瞄准了AI+Game,作者调研了已有的GPT game的工作,发现大致分为以下几种:

  1. 辅助游戏内容生成
  2. 参与游戏设计
  3. GPT玩游戏
  4. GPT模拟用户画像,帮助更好地迭代游戏

感觉还挺好玩的……claude computer use出来以后,有没有来一波claude玩游戏的