2024-08-21-insights

发表于 2024-08-21 更新于 2024-08-27 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 505 阅读时长 ≈ 1 分钟

REInstruct: Building Instruction Data from Unlabeled Corpus

如果大家还记得mammoth2，这篇文章探索了类似的事情：能不能从大规模、无监督的预训练数据里挖掘出来SFT数据？

对于这个方法，我一直感觉有个悖论：如果SFT这个过程没有引入额外的信息，为什么对数据进行重组会让模型获得额外的知识呢？有的人会说，"把数据重组成QA可以帮助模型更好地学会知识"，不过我现在隐约感觉这里的"更好地学会"对于强模型会变得非常marginal……不知道

如果MoE里不同专家的大小不一样会怎么样？这篇工作探索了，发现显然，模型会更倾向于激活大专家。所以作者改了loss让模型更多地去尝试激活小专家。经过训练，这样的HMoE比传统MoE数据效率更高。

在我看来，这个东西有点像是让"小专家"从"大专家"上蒸馏知识，小专家为了被激活不得不去学着表现得像大专家。

比如说啊，如果infer时我把大专家删了，是不是就成功训练出来了一个"高效小模型"呢？但本质上是从大模型上蒸馏下来了参数？