0%

2025-06-17-insights

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

Nvidia的工作,作者训了很多组模型,对比了各种sft初始化、各种temperature下模型的性能,给出了一组调参经验。

这位是真有卡

Scaling Test-time Compute for LLM Agents

Oppo的工作,在GAIA上对比了各种不同的scaling testtime compute框架的效果。和之前不同的点在于,作者做了比较新的模型对比,得出了一些结论。

AlphaEvolve: A coding agent for scientific and algorithmic discovery

火了整整一个月的alphaevolve的论文终于放出来了!这是一套人机结合的系统,人来决定一些可行的优化方向,然后agent来不停地向这个优化迭代算法