今天两篇论文是同一个作者,所以我算成一篇论文了,那就是一共四篇
The ART of LLM Refinement: Ask, Refine, and Trust
meta 的论文,讲了一个有意思的框架:目前学界对于 LLM 到底能不能 self-refine 持有两派观点,有的人任务模型无法发现自己推理中的错误。作者提出的路径是
- 先生成一个 CoT 和答案
- 接下来让另一个人对着问题和 CoT 生成 subquestion,然后看 subquestion 是否被正确回答了
- 如果有 subquestion 没被回答,就看着 subquestion 重新 refine 答案
- 最后找一个评判者看 refine 的答案和原始 CoT 答案谁好,最终选一个
作者发现这套框架在 GSM8K 和 StrategyQA 上有提升
First Step Advantage: Importance of Starting Right in Multi-Step Reasoning
这个和上一篇是一个作者,例子都不换,够狂。他探究的问题也挺好玩:reasoning 中第一个 step 重要吗?
作者发现小模型比起大模型,reasoning 之所以做错,绝大多数都是第一步就错了。另一方面,作者发现如果找一个大模型把小模型第一步的推理错误纠正过来,效果就能提升超过 100%。这个现象在各大大小模型组合上都类似。
这算什么:好的开始是成功的一半?
The Transient Nature of Emergent In-Context Learning in Transformers
这是篇我不太好简单解释的论文,deepmind 出品。作者的研究目标是:学界有一种思想是 ICL 能力是 emergent 出来的,一旦有就不会消失。是这样吗?
作者找了一个数据集,让 In-context learning 与 in-weight learning 都能导致好的结果,发现 ICL 在训练中会先出现后消失。所以作者觉得 ICL 能力可能是训练中 ICL 回路和 IWL 回路互相竞争的结果
我喜欢这篇论文……
In-context Learning and Gradient Descent Revisited
这篇论文也是讲 ICL,沿着之前那个 ICL=gradient descend 的故事线。
不过这次作者走得深了一步,发现他们之前有个核心区别:ICL 只能看到前面 layer 的信息流,而 GD 可以看到 deeper layer 的信息流。
再走得深了一步,作者说如果把模型结构和训练任务稍微改一改,那么就更像了。作者试了一下,发现这样训练的模型 ICL 能力变得很强。神奇……
把这篇和上一篇放在一起看,就更神奇了
v1.5.2