2025-05-09-insights 发表于 2025-05-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 182 阅读时长 ≈ 1 分钟 Reasoning Models Don’t Always Say What They Think Anthropic的工作。openai之前做了一个monitoring reasoning models的工作,说o1在thought中不一定表达他的真实想法。但这个该怎么检测?本文作者想了个及其巧妙的办法去定义这个问题(从下面的图就能看懂),由此展开了一系列实验。 有一种做学术的美感 相关文章 本月更新(Recent Update) arxiv-insights 2025-05-08-insights 2025-05-07-insights