2024-08-26-insights

发表于 2024-08-26 更新于 2024-08-30 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 217 阅读时长 ≈ 1 分钟

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

数学哥发力了。这次作者瞄准了transformer的梯度计算，注意不是前向时间。作者发现了一种梯度的近似方法，在保证误差范围的前提下，可以把针对sequenence length n的复杂度降低到\(n^{1+O(1))}\)

可以，现在就是不知道和现在主流的pretrain工程优化降复杂度的方法冲突不冲突