Data Diversity Matters for Robust Instruction Tuning
微软的研究。作者谈到在 instruction tuning 场景,训练数据的选择对下游任务很重要。同时数据选择时需要在数据的质量和数据的多样性上做出权衡,以前没有人系统的探索过这两点。
作者提出了一套 Quality-Diversity Instruction Tuning (QDIT) 框架,可以自动选择数据中 quality/diversity 的比重,发现由此训出来的 SFT 模型下限更高,同时平均表现也有提升。
MoDS: Model-oriented Data Selection for Instruction Tuning
同样是对 instruction tuning 选取数据的论文。作者提了一个三阶段的方法:
- 用一个 quality evaluation model 去选择高质量数据
- 接下来设计一个算法从上一步的子集中进一步选取一个 diversity 不掉的 subset
- 训一个 SFT 模型,看看哪些样本是这个 SFT 模型不好学的,再进一步做出一个 subset
最终作者说出来的 4k 的 subset 比原来的 214k 的 instruction data 效果要好
关于这种 “用模型自己的 Training Dynamics” 作为一种筛数据指标的方法,我近期打算写一篇 yejin choi 的老论文的笔记,大家可以一起品味一下
v1.5.2