0%

2024-12-13-insights

Spectral Image Tokenizer

一篇google research的工作,标得单位不是Google DeepMind。作者认为,old school的Autoregressive image generation,都需要把图片按照空间关系切成一个个小patch做tokenize,这个不符合图片的直觉。因为图片的雷达扫描顺序其实没有天然casual的性质(下一个patch依赖于前面的patch)。那我到频域上按照不同频域生成,是不是就有casual性质了?作者试了一下dwt,发现效果好不少

Phi-4 Technical Report

之前主打小模型的phi系列,第四代也变成14B了,果然参数少就是没前途吗。phi4研习了gpt4合成预训练数据的老路,MATH都给你刷到80分。

这次在很多任务上超过了teacher model(gpt4),说明合成数据的前途一片光明。不过这是为什么呢……

Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

BAAI出的o1-like model,方法论和STaR几乎一样:

  1. 找一个base model,在o1 distill数据上获得基础的推理diversity
  2. 然后持续地找数据集在上面"练功",生成一堆reasoning trace然后按照答案分类成正负样本
  3. 最后把数据训练回去,发现可以涨分

大家的探索最近聚焦在了这个形态,问题在于:除了第一步是需要o1才能蒸馏的,后面两步都是"古已有之"的思路。

那么o1蒸馏出的数据为何可以做出来第一步呢?