回来上班了,接下来 5 天每天推两天的工作,把 arxiv 里救回来一周的工作。
Competitive Programming with Large Reasoning Models
OpenAI 的工作,白名单机构,看见直接推。是 o1 和 o3-preview 在 ioi 和 codeforce 的测试报告。
Scaling Pre-training to One Hundred Billion Data for Vision Language Models
Google 的工作,作者尝试了把 VLM 训练数据 scaling 到 100B 条。大致结论是:
- 常见 benchmark,比如 coco,基本 10B 数据就收敛了
- 罕见 benchmark,可以一直训一直涨
- 使用 data filter,比如 clip,即使做的很细,还是会掉分?…… 所以,大家真的需要 filter 吗
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling
Furu 组的论文,他们取名字总是有一手的。作者认为,目前的 Autoregressive video generation 大多数都是按照时间从前到后,单张图 image patch 按扫描顺序上到下、左到右,能不能换成一个 block 一个 block 生成,而不是一个 patch 呢?作者尝试了 next block generation,一个 block 甚至可以是跨时间的,比如说一个区域一段时间内的子内容,发现效果很好。
我觉得这背后有一个观点在于:时间从前到后,单张图 image patch 按扫描顺序上到下、左到右,这样的逻辑是否真的是 casual 的?因为 Autoregressive 需要被建模的对象具有好的 casual 性质,这点在 video 模态里其实并不显然。可能,我们甚至需要想到一些办法对 casual 做建模,比如 vqvae 那样子?
v1.5.2