Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling
trae竟然还发论文,而且是多轮rl的code agent。通过测试时的再搜索,把swe-bench刷到了75分
感觉swe bench被刷爆了呀,谁再搞个swe-hard
Phi-Ground Tech Report: Advancing Perception in GUI Grounding
phi团队出了一个小的grounding模型。整体比较开放,share不少训练的trick
Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving
一篇挺干净的工作,作者想要结合search+train搞出来一个最强的lean4证明模型。搞了一个2层的搜索系统,每次提出一堆假设,再一点点去验证。通过这种方式,把今年的IMO 6道题证出来5道
感觉分化出了两个流派。一个是像o3把一个链做长,另一派是alpha-evolve这样搞个很大的搜索树