0%

2024-09-13-insights

今天出的论文有点惨,估计风头全被o1抢了吧。最近o1那么火,我要不写一篇inference time CoT的阅读笔记吧

SIMULBENCH: Evaluating Language Models with Creative Simulation Tasks

yuchen Lin搞的AI版的模仿游戏?不是让LLM在模拟环境中测试推理,而是让测试模型能不能“当模拟环境”。感觉还挺好玩的,虽然结论不那么意外,强的还是强