0%

2025-06-17-insights

发表于 2025-06-18 更新于 2025-06-28 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 392 阅读时长 ≈ 1 分钟

AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy

Nvidia的工作，作者训了很多组模型，对比了各种sft初始化、各种temperature下模型的性能，给出了一组调参经验。

这位是真有卡

Scaling Test-time Compute for LLM Agents

Oppo的工作，在GAIA上对比了各种不同的scaling testtime compute框架的效果。和之前不同的点在于，作者做了比较新的模型对比，得出了一些结论。

AlphaEvolve: A coding agent for scientific and algorithmic discovery

火了整整一个月的alphaevolve的论文终于放出来了！这是一套人机结合的系统，人来决定一些可行的优化方向，然后agent来不停地向这个优化迭代算法