2024-08-28-insights 发表于 2024-08-28 更新于 2024-09-05 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 229 阅读时长 ≈ 1 分钟 Training-Free Activation Sparsity in Large Language Models infer稀疏性是LLM的固有形式:在预测时,绝大多数的attention、FFN参数激活值都很低。能不能让激活比较低的参数干脆不激活,置0呢?已有工作,参考MoE,都需要让模型通过额外的训练来学会这件事。这篇工作探索了training-free的办法,通过对激活时的激活分布做微调,使得砍掉比较低的也不影响分布。发现可以在效果不咋降的前提下加速1.5x 相关文章 本月更新(Recent Update) arxiv-insights 2025-01-20-insights 2025-01-17-insights 2025-01-16-insights