2024-09-13-insights

发表于 2024-09-14 更新于 2024-09-19 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 198 阅读时长 ≈ 1 分钟

今天出的论文有点惨，估计风头全被o1抢了吧。最近o1那么火，我要不写一篇inference time CoT的阅读笔记吧

SIMULBENCH: Evaluating Language Models with Creative Simulation Tasks

yuchen Lin搞的AI版的模仿游戏？不是让LLM在模拟环境中测试推理，而是让测试模型能不能“当模拟环境”。感觉还挺好玩的，虽然结论不那么意外，强的还是强