Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
CMU 和 google 的研究,作者思考了一个简单的问题:现在的 pretrain-corpus 比如 C4,虽然数据多但是数据质量太多,我如果用一个别的什么模型比如 Llama 把 C4 按照合理、流畅的格式整个重写一遍,会发生什么?
作者把 300Btoken 重写了一遍,在 350M 和 1.3B 规模下尝试了 pretrain。发现在原 C4 和 synthetic data 联合下训练和把 pretrain 提速大概 3 倍,然后在同等训练量下,在 C4 上的 perplexity 绝对值可以提升大概 10%。换句话说,同样训练 token 数,350M 模型能力比 1.3B 模型还要好。
Unlearning Reveals the Influential Training Data of Language Models
为了训练 safety model,很有必要去检测哪些训练数据对模型的表现最关键。最简单的方法是:去掉某些数据,观察效果
然而,这种方法需要训练很多次模型,太贵了。作者想到了一个 reverse 的方式,如果用一个训好的模型出发,选择一部分数据做梯度上升,再检测,是不是就可以了呢?
作者发现这样反向检测的效果实际上很好,而且对算力的消耗非常小
v1.5.2