Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
少见的中国论文,来自阿里巴巴。
作者发现了 delta tuning 中,甚至可以大幅的将系数变成 0,并且不影响效果 (下图左所示,90% 变成 0 都不咋影响),有点神奇…… 作者由此将 WizardLM 和 WizardLM Math Code Alpaca 蒸馏到一起,发现 WizardLM 的 GSM8K zero-shot 甚至比 WizardLM Math 还高
p-Laplacian Transformer
这是一篇对 transformer 结构做改进的论文。神奇的是,四个作者都姓 Nguyen,这就是家族论文?
作者搞了一大堆我也卡不太懂的数学推导,最后推出来一个结构,在 image 任务上比 DeiT 牛,在 text 上比普通 softmax 牛。不过这种论文在实现的时候就是水分很多,具体怎么样可能还要时间检验…… 这里先列上
v1.5.2