0%

2023-10-19-insights

今天有74篇论文,有趣的有3篇

Superiority of Softmax: Unveiling the Performance Edge Over Linear Attention

这是一篇数学论文,里面一个模型图都没有。讲的问题是Linear Transformer获得了线性的复杂度,但基本上表现都比不上普通Transformer,作者认为这里面的根本原因就是softmax算子。接下来作者做了一系列证明来说明softmax算子在表征能力上为什么会提高Transformer数学结构的上限。

Eliciting Human Preferences with Language Models

stanford、MiT、Anthropic的联合论文,探讨了一个简单的问题:align领域能不能做active learning,不是模型去被动的生成答案让human去打分,而是模型去主动地和human沟通来做对齐。

很新颖、很符合直觉的想法,我很喜欢,我愿意颁给他ICLR Oral

Investigating Uncertainty Calibration of Aligned Language Models under the Multiple-Choice Setting

朱军老师组的作品。探索了一个简单的问题:为什么LLM emergent出来的calibration的性质,在RLHF以后消失了呢?

作者详细探索了这个现象,同时提出了一个简单的办法可以从一个RLHF模型中恢复出来calibration的性质,是一个很有意思的思路。