2024-04-30-insights

发表于 2024-04-30 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 623 阅读时长 ≈ 1 分钟

不如GPT2-chatbot

HFT: Half Fine-Tuning for Large Language Models

作者认为Finetune中的灾难性遗忘问题是因为参数更新太大了，那么直觉的想法就是：如果我只更新一部分参数，会减少这个问题吗？

这里作者尝试了两阶段的训练，一阶段更新一半的参数，发现效果不错。

有点神奇，想起之前推过的一篇很像的论文：当时是先全参数finetune，找到变得最多的一部分参数，第二轮只训这一部分。

Benchmarking Benchmark Leakage in Large Language Models

pengfei的论文，作者用ppl和n-gram的方式检测了已有的模型对于数据集的train set甚至test set是否见过。类似于之前skywork那个论文里提到的方法。

作者专门写了"training on benchmark data does not imply cheating"，求生欲极强……

Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

华为的论文，怎么感觉华为一直在研究投机推理……我也没太看懂，看起来作者想要解决投机推理中draft model的问题，类似于之前的medusa，想要让大模型通过early exit做draft model，然后再去验证。这带来的问题就是draft model其实也挺慢的，作者就又加了一些优化。最终效果比之前medusa更好