2023-10-13-insights

发表于 2023-10-13 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 425 阅读时长 ≈ 1 分钟

Do pretrained Transformers Really Learn In-context by Gradient Descent?

之前有篇论文说transformer-casual-MASK有一个特性，前面放in-context样本，在预测后面的时候，模型的参数类似于对前面的样本做了一些梯度下降。

作者说明之前推测里面用到的假设实际影响太大，和实际训练模型的setting差距过大。作者用Llama做了实验，发现了这两种假设在实际表现上的不匹配，说明了目前的假设还需要进一步的论证。

作者瞄准长文本领域attention计算的\(n^2\)复杂度，想了一个简单的办法：能不能把一些token消除掉，用一个哨兵token代替。然后让矩阵计算的时候变成稀疏的attention矩阵。有点类似之前的sparse-attention