0%

2025-09-17-insights

Positional Encoding via Token-Aware Phase Attention

这是一个经典的无图论文,里面全是数学。作者主要是发现传统的ROPE,会带来内在的距离偏差。这里是指rope本身的复数乘,会导致距离更远的token,他们的相对权重更低,使得attention score天然小。作者希望在这里,把“权重”变成一个可学习的变量,所以做了一些算法创新

话说现在关注attention本身结构的人似乎越来越少了