0%

2023-12-06-insights

Efficient Online Data Mixing For Language Model Pre-Training

预训练数据的选择对模型的最终表现至关重要。有些 Active Learning 的方法去选择下一个训练数据,但这样的方法效率太低了。另一类方案是自动选择 dataset 各个 subset 的比例,这里的优势在于只用选择有限个 cluster 的比例,因此效率很高。

作者提到,目前的 sbuset 选择方案需要预先选择好再开始训练,不能处理模型的动态能力提升。作者想到了一种 online 的方式,可以根据训练情况动态选择各个 subset 的比例,比之前的 SOTA 算法 DeReMi 效率和效果好。

Prompt Optimization via Adversarial In-Context Learning

作者提出了一套对抗的 Automatic Prompt enginnering 框架。用一个 generator 和一个 discriminator 相互对抗:每轮 generator 生成一批数据,discriminator 说对不对。然后另外有一个 prompt modifier 根据 discriminator 的分辨情况分别去修改两者增强的 prompt。

经过这种对抗攻击,作者提到在很多下游任务上可以自动搜索出表现很好的 prompt。

Training Chain-of-Thought via Latent-Variable Inference

google 的论文,经典一张图都没有。作者谈到,CoT 通过生成中间的 rational 来最终完成答案。作者想要自动构建 CoT 数据做 finetune 来让模型获得 CoT 能力。其中的问题是,没法保证 (自动检验) 中间 Rational 的正确性。作者提出了一套 markov-chain Monte-Carlo 的方法,可以平衡多个链路的后验概率。

作者在 GSM8K and the tasks in BIG-Bench Hard 做测试,发现效果提升超过 STaR、CoT-prompt tuning

Powered By Valine
v1.5.2