0%

2025-02-21-insights

今天达到 1000 引用,啥时候阅读论文数量能达到 1000 呢?

MLGym: A New Framework and Benchmark

Meta 新出的一篇工作,作者设计了 13 个真实世界的 AI 研究问题,让模型端到端的设计模型、自己做训练、调参等等。作者发现,目前的 o1 等模型对于调超参等较为确定的问题有能力做好,但是对于从数据中发现直觉、或者做顶层方法创新方面,做得非常差。

似乎最近一直有工作在进行类似的实验,这块似乎缺少一个很定量的评测方式,所谓的顶层、底层更多是一种感性的认识

Powered By Valine
v1.5.2