2024-04-26-insights 发表于 2024-04-28 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 214 阅读时长 ≈ 1 分钟 今天的论文感觉全是那种标题贼牛的 LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding meta的论文,不同于之前那个顶流MoD,这篇考虑的是某些token可以跑了几个transformer block以后直接就给出了next-token的预测。另一方面,作者还搞了一个有意思的,可以让已经被跳过的layer作为draft model去检查skip是否是有效的。 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-12-insights 2024-12-11-insights 2024-12-10-insights