2024-09-23-insights 发表于 2024-09-23 更新于 2024-09-27 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 143 阅读时长 ≈ 1 分钟 LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench 上线一周,第一批测试 o1 的论文已经卷出来了。PlanBench 的原班作者测试了一波 planbench,发现 o1 仍未完全解决之,呼吁大家快来刷。 相关文章 本月更新 (Recent Update) arxiv-insights 2025-06-04-insights 2025-06-03-insights 2025-06-02-insights
v1.5.2