2024-03-07-insights

发表于 2024-03-07 更新于 2024-03-12 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 183 阅读时长 ≈ 1 分钟

怎么读论文数一周没涨了……可恶，不能再这样下去了

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

一篇模型剪枝的研究：作者发现，大模型中绝大多数的layer都对结果几乎没有贡献。作者就想到，直接按照贡献度把一些layer整个删掉，然后发现这种方法剪枝，模型的留存性能竟然比其他方法好很多