0%

2025-08-01-insights

发表于 2025-08-07 更新于 2025-08-17 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 455 阅读时长 ≈ 1 分钟

Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling

trae竟然还发论文，而且是多轮rl的code agent。通过测试时的再搜索，把swe-bench刷到了75分

感觉swe bench被刷爆了呀，谁再搞个swe-hard

Phi-Ground Tech Report: Advancing Perception in GUI Grounding

phi团队出了一个小的grounding模型。整体比较开放，share不少训练的trick

Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving

一篇挺干净的工作，作者想要结合search+train搞出来一个最强的lean4证明模型。搞了一个2层的搜索系统，每次提出一堆假设，再一点点去验证。通过这种方式，把今年的IMO 6道题证出来5道

感觉分化出了两个流派。一个是像o3把一个链做长，另一派是alpha-evolve这样搞个很大的搜索树