0%

2024-08-26-insights

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

数学哥发力了。这次作者瞄准了transformer的梯度计算,注意不是前向时间。作者发现了一种梯度的近似方法,在保证误差范围的前提下,可以把针对sequenence length n的复杂度降低到$n^{1+O(1))}$

可以,现在就是不知道和现在主流的pretrain工程优化降复杂度的方法冲突不冲突