0%

2024-08-28-insights

Training-Free Activation Sparsity in Large Language Models

infer 稀疏性是 LLM 的固有形式:在预测时,绝大多数的 attention、FFN 参数激活值都很低。能不能让激活比较低的参数干脆不激活,置 0 呢?已有工作,参考 MoE,都需要让模型通过额外的训练来学会这件事。这篇工作探索了 training-free 的办法,通过对激活时的激活分布做微调,使得砍掉比较低的也不影响分布。发现可以在效果不咋降的前提下加速 1.5x

Powered By Valine
v1.5.2