2024-12-13-insights

Spectral Image Tokenizer

一篇google research的工作，标得单位不是Google DeepMind。作者认为，old school的Autoregressive image generation，都需要把图片按照空间关系切成一个个小patch做tokenize，这个不符合图片的直觉。因为图片的雷达扫描顺序其实没有天然casual的性质（下一个patch依赖于前面的patch）。那我到频域上按照不同频域生成，是不是就有casual性质了？作者试了一下dwt，发现效果好不少

Phi-4 Technical Report

之前主打小模型的phi系列，第四代也变成14B了，果然参数少就是没前途吗。phi4研习了gpt4合成预训练数据的老路，MATH都给你刷到80分。

这次在很多任务上超过了teacher model(gpt4)，说明合成数据的前途一片光明。不过这是为什么呢……

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

BAAI出的o1-like model，方法论和STaR几乎一样:

找一个base model，在o1 distill数据上获得基础的推理diversity
然后持续地找数据集在上面"练功"，生成一堆reasoning trace然后按照答案分类成正负样本
最后把数据训练回去，发现可以涨分

大家的探索最近聚焦在了这个形态，问题在于：除了第一步是需要o1才能蒸馏的，后面两步都是"古已有之"的思路。

那么o1蒸馏出的数据为何可以做出来第一步呢？