2024-08-28-insights 发表于 2024-08-28 更新于 2024-09-05 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 229 阅读时长 ≈ 1 分钟 Training-Free Activation Sparsity in Large Language Models infer 稀疏性是 LLM 的固有形式:在预测时,绝大多数的 attention、FFN 参数激活值都很低。能不能让激活比较低的参数干脆不激活,置 0 呢?已有工作,参考 MoE,都需要让模型通过额外的训练来学会这件事。这篇工作探索了 training-free 的办法,通过对激活时的激活分布做微调,使得砍掉比较低的也不影响分布。发现可以在效果不咋降的前提下加速 1.5x 相关文章 本月更新 (Recent Update) arxiv-insights 2025-06-11-insights 2025-06-10-insights 2025-06-09-insights
v1.5.2