2024-09-17-insights

今天肉眼可见多了一堆planning token、MCTS类的工作……OpenAI又引领学术界发展了

Language Models “Grok” to Copy

作者探索了LLM在训练中学习copy的能力：从context中直接找到一些片段来抄袭。像下面这个sample，上下文是50组随机数（有些组是重复的），然后输入其中一个的前缀，比较牛的模型可能就会发现降低ppl的好方式是抄袭前面出现过的串。作者发现不同训练阶段模型的表现类似于grokking现象：在训练集上很快过拟合，在测试集表现一坨；但是过了很久以后，在测试集上突然领悟了

大家对于grokking的解释一般是”学习快但上限低的记忆回路和学习慢但上限高的泛化回路互相竞争“。但在这个场景中，记忆回路按理来说也可以解决？

Rethinking KenLM: Good and Bad Model Ensembles for Efficient Text Quality Filtering in Large Web Corpora

一篇挺专的论文：如何从预训练语料里挖掘高质量数据。已有工作kenlm的方案是用一个在高质量语料上训练的n-gram LM作为数据筛，作者认为这种方案只看到了好的语料，没看到坏的语料，没有对比学习的思路在里面。所以作者训练了两个kenlm，一个在好语料一个在坏语料，综合两个模型的结果，最终的筛选质量比fasText高。

感觉挺不错的小品工作，说起来upstage AI最近论文都挺好的