今天有 80 篇论文,马上就到 ACL 的静默期了,估计这几天有一堆赶 ACL 静默期的论文出来。今天的论文全是好玩的,只能说严选三篇……]
哎,要不是考试周到了,真想痛快读上 10 个小时论文呀
Mixtral of Experts
上周的最佳 magnet 运营,Mixtral 的 MoE 版本今天论文上来了。据我所知,这个应该是开源界 MoE 的鼻祖了,估计未来几个月 tons of MoE 的论文就要来了,毕竟终于有开源了。
每个 token 都会在 8 个 FFN 层中选择最大的两个去用,用这个方法做出来了一个 8x7B 模型,效果胜过 ChatGPT3.5 和 Llama2 70B。其 instruct 版本,在评测中超过了 GPT-3.5 Turbo, Claude-2.1, Gemini Pro, Llama 2 70B
等我这周考完试,写一个这篇论文的阅读笔记吧
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
如果大家还记得之前分享的 mamba 架构…… 之前 mamba 的一个问题就是 scaling 做不起来。作者发现,如果把 Mamba 和 MoE 技术结合起来,就能真正释放 mamba 的潜力。比 Transformer、Transformer-MoE 都更容易 scaling
期待成品,感觉大家现在还是更认成品,必须得真有个超过 llama 的模型丢出来,大家才会真正去 follow
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
长文本领域的新探索,这篇工作想的是:能不能把 activation 换成一个更稠密的形式,使得相对进的 sliding window 就能表示更多的信息。作者设计了训练任务,使得模型可以把 activation 变得跟稠密,进而通过 sliding windows 做就能文本建模
AST-T5: Structure-Aware Pretraining for Code Generation and Understanding
我觉得这篇也很有价值,实在不好取舍,就干脆都放上来了。
Meta AI 的论文,作者提到,目前的代码模型都会把 code 视为 sequence,但实际上很多代码不同的写法是等价的,还有等等问题。对于代码理解来说,真正的不变量是 AST 结构,作者想要直接把 AST 结构做预训练生成的对象。
在 T5 这个规模下,作者尝试基于 AST 结构划分 span,发现新式的训练方法在所有规模下,最终效果都比传统方法好很多
v1.5.2