0%

2024-04-23-insights

这周虽然周二,但论文却不是很多,感觉准备憋个大的

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

刷榜第一人phi-3来了。3B模型,训了3T Token,由于高质量数据和合成数据,效果接近Mixtral 8x7B。另外作者还尝试了更大号的,发现效果更好

我一直感觉phi团队是不是在往外抖落OpenAI机密……

Self-Supervised Alignment with Mutual Information Learning to Follow Principles without Preference Labels

Goodman的论文,是RLHF领域的,最近挺少推这个方向的论文了。不过这篇思路挺有意思的。思路有点像之前港大的一篇self evolve的工作:输入一个query以后,先让模型生成这个query的一些可能要求作为constitution,以及生成一个response。然后让模型测试这个response是否满足要求。\(P(response|query, constitution)\)作为feedback,由此来对齐模型

这个事情和LeCun之前那个model as both rewarder/generator有点像。其实是把model-as-rewarder的能力蒸馏到model-as-generator里面了?

Better Synthetic Data by Retrieving and Transforming Existing Datasets

牛逼哥的新作,他是经典作者少。作者发现,目前的研究主要是数据瓶颈,大家都使用合成数据,但是合成出来的数据往往质量低、diversity、复杂度不够。所以,另一个路线是把已有数据做转化。作者想到:能不能根据我想要的数据格式自动转换数据呢?

作者设计了retrieve的框架,根据target task从一大堆已有的SFT数据里自动寻找最像的instance,然后转化对应的数据到target task format。发现这张做出来的合成数据质量就会很高

很聪明的想法

Mixture of Lora Experts

猜猜是谁起的名字,起名仙人好像就那么几位……我不太懂lora这个领域,我理解作者的意思是,训练时搞出来多个不同的moe lora,然后测试时可以根据router的结果动态的把几个lora的权重缝合在一起变成一个ensembled lora再跑前向,这样计算量不会增加多少,但是效果不错。