论文阅读[精读]-Parameter-Efficient Transfer Learning for NLP

今天分享一篇delta tuning方向的经典论文Adpter tuning，是一篇比较早的工作，2019年的ICML。

作者来自Google Research和Jagiellonian University。

Introduction

作者在标题里用的说法是parameter-efficient，这个词语碰瓷的是fine-tune方法。当时BERT刚出不久，基本统治了NLP所有任务。然后pretrain + fine-tune的manner是主流的思路，但这个作者发现：

作者想要寻找有没有比fine-tune更好的方法，做到：

作者想到了adpter tuning的方法，只用多训练大约3%的参数，就能在GLUE benchmark达到正常BERT的99%的水平，可以说是非常parameter-efficient了

adpter的作用和优势很多，方法却非常的简单。在这里，作者一般性的考虑了transformer block

对于一般的transformer block一般是前面是一个self-attention/cross-attention，加一个feed-forward，然后是一个残差链接，接着一个layerNorm，再接一个feed-forward，然后是一个残差链接，接layerNorm

作者在这个过程中间插入了一些小的adpter层，在训练中只有绿色的部分是可训练的，别的部分的参数被锁定(BERT的预训练参数)

实现中和设计中有几个很重要的细节：

插入的adpter层在feed-forward后面，在残差链接前面，因此不影响transformer block残差链接在深度上的的效果
adpter层本身是含有skip-connection的，因此全0初始化的adpter层对transformer block来说相当于不变。这一点很重要，因为训练的初期模型相当于和原模型保持一致，对训练的稳定性非常重要。
作者在训练中让transformer bolck的layerNorm层是不锁参的(用的pair-wise muliply norm)，这样的好处是

对于adpter层来说，为了减小参数量，用了所谓的feed-forward-down和feed-forward-up方法，使得中间变量的维度变得很小，SiLu激活函数连接。

作者提到，还有另外一些adpter层的设计方法，和这种设计方法的表现十分接近，本文就强调了这种设计，其他的设计还类似于:

adding a batch/layer normalization to the adapter
increasing the number of layers per adapter
different activation functions, such as \(\tanh\)
inserting adapters only inside the attention layer
adding adapters in parallel to the main layers, and possibly with a multi- plicative interaction.

总体而言，这边文章的关键不在adpter具体的设计(设计背后的理论我在几天后也许有的论文分享中会有更详细的探讨)，而在于这种方法本身，parameter-efficient训练，或者现在叫delta tuning方法的灵感。

这篇论文的实验设计其实还挺好的，作者在包括GLUE benchmark在内的多个任务中，用BERT作为锁参的”大模型“来对比正常的BERT fine-tune， Variable fine-tune和非BERT SOTA的结果

作者行文用了很多的数据来表示：adpter方法和fine-tune基本没有任何区别，效果只下降了一点点点点

在这一部分，作者对adpter训练方法的特性做了很多的探索，可以引发人非常多的思考，同时这一部分的实验设计更是非常巧妙：

正常adpter是在每一层都有的，作者试着单独一处某一层的、或者移除一些层的adpter看效果

这个热力图的横纵坐标的跨度对应的层的adpter被移除了，对角线代表只移除一个adpter，右上角代表所有的都移除。这个图其实很有意思：

对角线的表现基本没有下滑，这代表单独一层的adpter其实没有起什么作用，也就是说adpter层的参数和全0没啥区别。另一点上，对角线右下角(上层)的表现下降更多一些，说明上层的layer对模型的表现更重要

这一点有些佐证了”大模型前面层表征通用知识，后面层表征细粒度知识“的论点，因为后面的adpter对下游任务的帮助更大

当移除的数量增大时，表现下滑的很快，这说明adpter层其实是共同起作用的，并且起的作用各不相同。这其实正可以说明adpter层是非常parameter-efficient的了

作者在这里探索了adpter层参数的表示是不是鲁棒的，也就是把正常训好的adpter参数叠加一个高斯噪声。

当高斯噪声不大时(\(\sigma\)小)，模型的表现下滑不大

另一方面，作者探索了adpter层参数对表现的影响：其实用比较小的adpter就能达到差不多的表现。这个论点也许可以用intrinsic dimension的角度衡量，后面我也许会写论文阅读笔记。

总体而言，作者在pre-train刚出半年多，就想到、对比了fine-tune manner，可见科研思路的敏锐。
同时，作者的adpter主打小参数，因此设计的一些鲁棒性方面的附加实验也非常好
既然通过给basebone模型添加一些参数，可以实现媲美fine-tune的效果；那么只训练basebone模型的一点参数，或者把运算方式进行一些改变，能不能获得媲美fine-tune的效果呢？