0%

2025-05-09-insights

Reasoning Models Don’t Always Say What They Think

Anthropic的工作。openai之前做了一个monitoring reasoning models的工作,说o1在thought中不一定表达他的真实想法。但这个该怎么检测?本文作者想了个及其巧妙的办法去定义这个问题(从下面的图就能看懂),由此展开了一系列实验。

有一种做学术的美感