2024-01-05-insights

发表于 2024-01-05 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 171 阅读时长 ≈ 1 分钟

LLAMA PRO: Progressive LLaMA with Block Expansion

作者提到LLM的训练基本都是狗熊掰棒子：记住后面的就会忘掉前面的，作者改了改llama的算法，让他可以同时学会新的技巧也记住前面的技巧。大致是把transformer block的一部分复制了一份，然后锁住原来的参。

有点类似之前的那个韩国深度拼接LLM的论文