0%

2024-08-22-insights

First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models

这篇工作瞄准的时 dynamic activation 这个领域,这是一个和 MoE 对偶的场景:MoE 认为我把 FFN 复制好多份,每次让模型竞争选出来谁是最合适的去激活。这个场景则不复制参数,而是认为正常的参数激活的过程中也是稀疏的,能不能提前预测这个稀疏性,进而干脆不计算可能贡献不大的部分。注意,不计算和不激活是俩概念,不激活还是得算了才知道,所以本质上没有加速;而不计算是真的没有算。

这篇工作更近一步,尝试了能不能干脆不去训练所谓的”sparse predictor”,而是换成一个预先定义的、参数搜索的算法,竟然效果还不错

我也是新知道这个领域,感觉有点像是折叠屏手机里面的大折叠屏和小折叠屏……

FocusLLM: Scaling LLM’s Context by Parallel Decoding

朋友的工作,挺有趣的 long context 思路:有点类似之前有篇 Activation Beacon 的工作。如果很长的 context 对于后文的 decoding 分别有作用,那么能不能把 context 分解成多个 chunk,然后并行扫描给出 hidden state 中间结果。并最终让模型参考中间结果做最终的生成。作者发现这是可行的,并且在实际上可以把一个 chunk 压缩成几个 token。

这里和之前做 sentence embedding 的核心区别是,在对 chunk 进行编码时是可以看到之前解码的上下文的,因此模型知道如何保留对 local context 有用的信息。其实对于很多类似于 perplexity 的场景,long context 的来源就是一些语义无关的 chunk

Powered By Valine
v1.5.2