0%

2023-12-14-insights

SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

大家都知道MoE会在FFN层中开启多个专家,进而并行地提升参数量。那么,在Attention变换层和up/down projection层可以做MoE吗?作者试了,发现可以做。而且这种“MoE”可以和FFN的MoE一起用,变成一种所谓的full-MoE model

Mathematical Language Models: A Survey

一篇survey,专门讲今年出来的math LLM方法和math场景的任务。说是Math,但其实method里面把reasoning和CoT的东西都引用了。

只能说,这些都学会,你就是jason wei