0%

2024-09-23-insights

LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

上线一周,第一批测试o1的论文已经卷出来了。PlanBench的原班作者测试了一波planbench,发现o1仍未完全解决之,呼吁大家快来刷。