2025-01-17-insights

发表于 2025-01-17 更新于 2025-01-23 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 364 阅读时长 ≈ 1 分钟

最近arxiv开始陆陆续续上ICML格式的文章了，公式浓度明显上升。

Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

meta最近好像一直在和tokenizer死磕，这篇工作作者尝试对于ViT image tokenizer的scaling问题。基于对下游的perception和generation的效果进行观察

一篇挺有趣的工作，作者认为：既然SFT的目的是激发模型运用预训练的知识，那么其实就要求SFT数据在知识分布上需要和预训练尽可能对齐。现在是否对齐了呢？作者去找到一种方法，识别pretrain数据和sft数据的domain gap，由此对sft数据进行补充。