2024-03-14-insights

发表于 2024-03-15 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 577 阅读时长 ≈ 1 分钟

Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models

推荐Ning Ding师兄的论文，和前两天meta的branch-train-mix很类似：能不能把几个在专门领域上特化的模型merge成为一个MoE专家呢？感觉这招能走通的话，这些公司可以把市面上的所有开源模型llama gemma mixtral之类的都merge进来，再开始continue-pretrain了