2024-08-28-insights

发表于 2024-08-28 更新于 2024-09-05 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 229 阅读时长 ≈ 1 分钟

Training-Free Activation Sparsity in Large Language Models

infer稀疏性是LLM的固有形式：在预测时，绝大多数的attention、FFN参数激活值都很低。能不能让激活比较低的参数干脆不激活，置0呢？已有工作，参考MoE，都需要让模型通过额外的训练来学会这件事。这篇工作探索了training-free的办法，通过对激活时的激活分布做微调，使得砍掉比较低的也不影响分布。发现可以在效果不咋降的前提下加速1.5x