2023-12-14-insights

发表于 2023-12-14 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 328 阅读时长 ≈ 1 分钟

SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

大家都知道MoE会在FFN层中开启多个专家，进而并行地提升参数量。那么，在Attention变换层和up/down projection层可以做MoE吗？作者试了，发现可以做。而且这种“MoE”可以和FFN的MoE一起用，变成一种所谓的full-MoE model

一篇survey，专门讲今年出来的math LLM方法和math场景的任务。说是Math，但其实method里面把reasoning和CoT的东西都引用了。

只能说，这些都学会，你就是jason wei