2025-09-17-insights 发表于 2025-09-21 更新于 2025-09-24 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 212 阅读时长 ≈ 1 分钟 Positional Encoding via Token-Aware Phase Attention 这是一个经典的无图论文,里面全是数学。作者主要是发现传统的ROPE,会带来内在的距离偏差。这里是指rope本身的复数乘,会导致距离更远的token,他们的相对权重更低,使得attention score天然小。作者希望在这里,把“权重”变成一个可学习的变量,所以做了一些算法创新 话说现在关注attention本身结构的人似乎越来越少了 相关文章 本月更新(Recent Update) arxiv-insights 2025-10-21-insights 2025-10-20-insights 2025-10-17-insights