The Impact of Reasoning Step Length on Large Language Models
作者研究了 CoT 的效果,发现和 reasoning 步数关系非常大
- 更长的 reasoning 效果就更好
- CoT 给的 in-context demonstration 样本正确性无所谓,只需要步数多模型就能学会做更好的 CoT
- Let’s think step by step, you must think more steps. 效果比之前那个好很多
有点像之前 RLHF 那个发现:按照谁的回答长就算谁好,准确率和 human preference 有 80% 一致……
I am a Strange Dataset: Metalinguistic Tests for Language Models
阴间系列论文,作者问了一个怪问题:LLM 能处理 "自指" 问题吗?比如说:
生成任务:The penultimate word in this sentence is___. 一个可行解是 "is"
判别任务:The penultimate word in this sentence is sentence. 答案是 False
作者发现,在这种任务中,模型的表现基本上就是瞎猜 (50%),即使 GPT4 只能到达 60% 左右。相比之下,human 能做到 95%…… 嗯,有 yejin choi 遗风
v1.5.2