2024-01-05-insights 发表于 2024-01-05 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 171 阅读时长 ≈ 1 分钟 LLAMA PRO: Progressive LLaMA with Block Expansion作者提到LLM的训练基本都是狗熊掰棒子:记住后面的就会忘掉前面的,作者改了改llama的算法,让他可以同时学会新的技巧也记住前面的技巧。大致是把transformer block的一部分复制了一份,然后锁住原来的参。 有点类似之前的那个韩国深度拼接LLM的论文 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-30-insights 2024-12-25-insights 2024-12-24-insights