2024-07-22-insights

发表于 2024-07-25 更新于 2024-08-16 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 268 阅读时长 ≈ 1 分钟

旅游回来足足欠下了一周的论文没读……最近越来越多kv-cache操作的论文了，要不后面写个阅读笔记调研梳理一下吧

LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

apple和meta的联名文章，真得看一眼。作者认为目前LLM的推理是两个阶段：一阶段算出来所有kv cache并保存，二阶段每个token使用保存的kv cache，同时存下来最新token的kv cache。作者的思路是，每个阶段模型能不能自己选用某些token，然后一旦算过都可以存下来留待下次使用。