2025-02-21-insights

发表于 2025-02-23 更新于 2025-02-26 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 231 阅读时长 ≈ 1 分钟

今天达到1000引用，啥时候阅读论文数量能达到1000呢？

MLGym: A New Framework and Benchmark

Meta新出的一篇工作，作者设计了13个真实世界的AI研究问题，让模型端到端的设计模型、自己做训练、调参等等。作者发现，目前的o1等模型对于调超参等较为确定的问题有能力做好，但是对于从数据中发现直觉、或者做顶层方法创新方面，做得非常差。

似乎最近一直有工作在进行类似的实验，这块似乎缺少一个很定量的评测方式，所谓的顶层、底层更多是一种感性的认识