2024-09-13-insights 发表于 2024-09-14 更新于 2024-09-19 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 198 阅读时长 ≈ 1 分钟 今天出的论文有点惨,估计风头全被o1抢了吧。最近o1那么火,我要不写一篇inference time CoT的阅读笔记吧 SIMULBENCH: Evaluating Language Models with Creative Simulation Tasks yuchen Lin搞的AI版的模仿游戏?不是让LLM在模拟环境中测试推理,而是让测试模型能不能“当模拟环境”。感觉还挺好玩的,虽然结论不那么意外,强的还是强 相关文章 本月更新(Recent Update) arxiv-insights 2024-12-20-insights 2024-12-19-insights 2024-12-18-insights