论文阅读[粗读]-BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models

发表于 2022-10-13 更新于 2024-08-09 分类于论文阅读笔记阅读次数： Valine：
本文字数： 594 阅读时长 ≈ 1 分钟

这一篇工作和前两篇是另一种思路，对模型结构不做任何改变，只是在fine-tune时改变一点点参数:bias

ACL 2022的短文，方法其实就没啥，但揭示出来的道理不少。

方法

作者把BERT模型中所有的bias进行训练

同时剩下的参数全部锁定，在下游任务上做fine-tune

可以看出，在下游任务上BitFit和正常Fine-tune比并不差

有意思的是，作者又做了几个实验

作者观察了不同的bias类型的训练后改变的差值，发现：

感觉这一点还有很多可挖掘的地方？但作者并没有进一步分析原因

作者试着随机选择模型的一些参数，和bias数量一致，结果发现

类似的，作者也发现BitFit在少数据中表现更好

这个文章就更简单，但相比于方法，我对文章中提到的一个观点更感兴趣：

fine-tune的过程不是让模型适应另外的数据分布，而是让模型更好的应用出本身的表征能力

另外，作者没有提到的小细节我觉得可以引发很多思考：