2024-06-12-insights

发表于 2024-06-12 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 603 阅读时长 ≈ 1 分钟

Improve Mathematical Reasoning in Language Models by Automated Process Supervision

如果我说MATH + Prm，大家可能会觉得被水烂了。但是deepmind上来scaling到了1.5M的样本，用mcts自己找trace。通过这个方法，可以把Gemini在MATH上的表现从50%提升到70%……

All roads lead to money……

作者重新定义了automatic prompt tuning, 总体目标是让智能系统可以从自然语言的反馈中找到“梯度”，进而指导后续的自我优化。作者设计了一个框架，可以用类似pytorch的语法跑“backpropagation”

感觉很多人都在思考类似的东西，但是好像没人做的很好……我一直觉得这是不是optimizer的问题，比起设计"textgrad"，不妨说设计"AI-based optimizer"

宣传一下我们组的工作：作者用DAG图的形式定义出来了任意规模的multi-agent network，并由此在这些系统上做了实验：发现在multiagent network领域，几乎也是符合scaling law的。