2024-01-11-insights

发表于 2024-01-11 更新于 2024-01-12 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 536 阅读时长 ≈ 1 分钟

The Impact of Reasoning Step Length on Large Language Models

作者研究了CoT的效果，发现和reasoning步数关系非常大

有点像之前RLHF那个发现：按照谁的回答长就算谁好，准确率和human preference有80%一致……

阴间系列论文，作者问了一个怪问题：LLM能处理”自指”问题吗？比如说：

生成任务：The penultimate word in this sentence is_. 一个可行解是”is”

判别任务：The penultimate word in this sentence is sentence. 答案是False

作者发现，在这种任务中，模型的表现基本上就是瞎猜(50%)，即使GPT4只能到达60%左右。相比之下，human能做到95%……嗯，有yejin choi遗风