2025-02-21-insights 发表于 2025-02-23 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 231 阅读时长 ≈ 1 分钟 今天达到1000引用,啥时候阅读论文数量能达到1000呢? MLGym: A New Framework and Benchmark Meta新出的一篇工作,作者设计了13个真实世界的AI研究问题,让模型端到端的设计模型、自己做训练、调参等等。作者发现,目前的o1等模型对于调超参等较为确定的问题有能力做好,但是对于从数据中发现直觉、或者做顶层方法创新方面,做得非常差。 似乎最近一直有工作在进行类似的实验,这块似乎缺少一个很定量的评测方式,所谓的顶层、底层更多是一种感性的认识 相关文章 本月更新(Recent Update) arxiv-insights 2025-02-20-insights 2025-02-19-insights