2025-09-17-insights

发表于 2025-09-21 更新于 2025-09-24 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 212 阅读时长 ≈ 1 分钟

Positional Encoding via Token-Aware Phase Attention

这是一个经典的无图论文，里面全是数学。作者主要是发现传统的ROPE，会带来内在的距离偏差。这里是指rope本身的复数乘，会导致距离更远的token，他们的相对权重更低，使得attention score天然小。作者希望在这里，把“权重”变成一个可学习的变量，所以做了一些算法创新

话说现在关注attention本身结构的人似乎越来越少了