2025-05-09-insights

发表于 2025-05-09 更新于 2025-05-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 182 阅读时长 ≈ 1 分钟

Reasoning Models Don’t Always Say What They Think

Anthropic的工作。openai之前做了一个monitoring reasoning models的工作，说o1在thought中不一定表达他的真实想法。但这个该怎么检测？本文作者想了个及其巧妙的办法去定义这个问题（从下面的图就能看懂），由此展开了一系列实验。

有一种做学术的美感