0%

2023-12-20-insights

昨天没来得及分享,今天把这两天的都补上

Sparse is Enough in Fine-tuning Pre-trained Large Language Model

作者想要探究 PET 方法的内部机理,为什么 PET 方法只调整很少的参数就会有用呢?这篇工作中,作者尝试把模型的参数按照某个程度初始化一下,(程度最小就是不动),作者发现无论怎么训练,基本上都是 1% 的参数占据了 99% 的 gradient,说明模型的稀疏是一个固有的性质

由此,作者根据参数的 gradient 提出了一个 Sparse Increment Fine-Tuning 方法,发现效果也不错

经典的 ICML 偏好的论文形式

Powered By Valine
v1.5.2