2024-04-26-insights

发表于 2024-04-28 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 214 阅读时长 ≈ 1 分钟

今天的论文感觉全是那种标题贼牛的

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

meta的论文，不同于之前那个顶流MoD，这篇考虑的是某些token可以跑了几个transformer block以后直接就给出了next-token的预测。另一方面，作者还搞了一个有意思的，可以让已经被跳过的layer作为draft model去检查skip是否是有效的。