0%

2025-09-09-insights

An AI system to help scientists write expert-level empirical software

swebench这些benchmark是让模型做真实世界的repo issue solving,愿景是让coding agent的能力范围从扩展到repo。但是世界上到现在,并没有真正拿到生产力级、超越人类的repo level coding agent,所以google把alpha-evolve的系统搬到了repo-level coding上,在多个场景里真的证明了,通过thinking + tree-search,模型可以在repo level超越人类

google还是那么喜欢真实世界场景,这才是scaling呀…而不是对着swebench暴刷

Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

紧随其后的就是seed的tree-search agent。也是通过做多轮迭代,和把整套multi-agent system视为可以训练的对象

这波LLM search的浪潮,和两年前yaoshunyu的tree-of-thought,核心区别就是 1)可以搜索中带着训了 2)beam_size变大了10倍。所以实验室搞不了了?