0%

2024-08-22-insights

First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models

这篇工作瞄准的时dynamic activation这个领域,这是一个和MoE对偶的场景:MoE认为我把FFN复制好多份,每次让模型竞争选出来谁是最合适的去激活。这个场景则不复制参数,而是认为正常的参数激活的过程中也是稀疏的,能不能提前预测这个稀疏性,进而干脆不计算可能贡献不大的部分。注意,不计算和不激活是俩概念,不激活还是得算了才知道,所以本质上没有加速;而不计算是真的没有算。

这篇工作更近一步,尝试了能不能干脆不去训练所谓的"sparse predictor",而是换成一个预先定义的、参数搜索的算法,竟然效果还不错

我也是新知道这个领域,感觉有点像是折叠屏手机里面的大折叠屏和小折叠屏……

FocusLLM: Scaling LLM’s Context by Parallel Decoding

朋友的工作,挺有趣的long context思路:有点类似之前有篇Activation Beacon的工作。如果很长的context对于后文的decoding分别有作用,那么能不能把context分解成多个chunk,然后并行扫描给出hidden state中间结果。并最终让模型参考中间结果做最终的生成。作者发现这是可行的,并且在实际上可以把一个chunk压缩成几个token。

这里和之前做sentence embedding的核心区别是,在对chunk进行编码时是可以看到之前解码的上下文的,因此模型知道如何保留对local context有用的信息。其实对于很多类似于perplexity的场景,long context的来源就是一些语义无关的chunk