AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy
Nvidia的工作,作者训了很多组模型,对比了各种sft初始化、各种temperature下模型的性能,给出了一组调参经验。
这位是真有卡
Scaling Test-time Compute for LLM Agents
Oppo的工作,在GAIA上对比了各种不同的scaling testtime compute框架的效果。和之前不同的点在于,作者做了比较新的模型对比,得出了一些结论。
AlphaEvolve: A coding agent for scientific and algorithmic discovery
火了整整一个月的alphaevolve的论文终于放出来了!这是一套人机结合的系统,人来决定一些可行的优化方向,然后agent来不停地向这个优化迭代算法