2024-02-14-insights

发表于 2024-02-14 更新于 2024-02-23 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 437 阅读时长 ≈ 1 分钟

情人节，51个大聪明还在挂论文，1个大聪明还在刷论文……

Mixtures of Experts Unlock Parameter Scaling for Deep RL

CG track没活了，还是看看远处的AI track吧

deepmind发现经典的NLP领域有scaling law，大就是好。然而对于RL，似乎不是这样，大规模扩大parameters，模型效果反而会下降。作者做了一系列探索，发现MoE结构，尤其是softmax-MoE结构下，RL也能有scaling-law了。所以，OpenAI的风终于吹到RL了吗……

Active Preference Learning for Large Language Models

作者讲了一个好玩的思路：目前的RLHF都是被动的，换句话说是按照某种temperate去sample一堆样本按照好坏去做优化。那么，能不能让模型更主动地参与到训练中来呢？作者开发了一套改进的DPO方案，选择样本的方式不是随机的，而是按照score排序进行的。得到了相对更好的结果