2024-08-26-insights 发表于 2024-08-26 更新于 2024-08-30 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 215 阅读时长 ≈ 1 分钟 Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time数学哥发力了。这次作者瞄准了transformer的梯度计算,注意不是前向时间。作者发现了一种梯度的近似方法,在保证误差范围的前提下,可以把针对sequenence length n的复杂度降低到$n^{1+O(1))}$ 可以,现在就是不知道和现在主流的pretrain工程优化降复杂度的方法冲突不冲突 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-30-insights 2024-12-25-insights 2024-12-24-insights