0%

2024-09-23-insights

LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench

上线一周,第一批测试 o1 的论文已经卷出来了。PlanBench 的原班作者测试了一波 planbench,发现 o1 仍未完全解决之,呼吁大家快来刷。

Powered By Valine
v1.5.2