2024-05-24-insights

发表于 2024-05-24 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 685 阅读时长 ≈ 1 分钟

昨天arxiv没更新，没想到今天一更新就是196篇……重量级

Unchosen Experts Can Contribute Too: Unleashing MoE Models’ Power by Self-Contrast

作者发现，目前的MoE模型里，没激活的token完全没用上，这里面有优化的空间。作者想了个招数，如果求出不同的激活方式的差值，这个差值应该就考虑未激活专家的内容了。作者发现这种方法不需要额外训练，也基本不用额外引入推理开销，竟然能在所有任务上提升效果？而且涨的还挺多

啊？那训练的时候也可以这么搞吗……

SimPO: Simple Preference Optimization with a Reference-Free Reward

Danqi的论文，这下不得不推了：作者想到了一个简单的DPO改进，用模型自己的logits作为隐式的reward，一下子连ref model都省了，真成sft了。然后发现这种简单的方案训练出来的模型实际上比已有算法都好，使用llama3作为base model，训出来了目前最强的8B模型。

From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step

Yejin Choi的论文，作者的思路很简单：模型通过多步调用获取CoT的能力，那么模型能不能不用CoT也和之前效果一样呢？作者想了个很简单的办法，先生成CoT的正确样本，在训练的时候逐渐只保留最后的后缀，最终训练数据里就是direct answer。作者发现这种方案训练出来的模型在GSM8k上不用CoT，直接就能有50%的acc

有点神奇