0%

2025-05-01-insights

SWE-smith: Scaling Data for Software Engineering Agents

大家都知道 swe-bench,是解决真实世界仓库 issue 的 benchmark。但是,有没有对应的训练集 /sft 数据呢?作者发现,没有。怎么办,作者找了 100 多个仓库,合成了很多的 issue 和解决方案。在大规模训练以后,甚至还没有 rl,仅仅 sft,就刷到了 40 分。

所以,data is all you need

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

deepseek 新出的 lean4 证明模型。这里面的优化暂且不提,但主图很有意思:作者发现,v3 等强的 ai,用 word-based 的证明方法,实际上已经接近了 lean4 模型的能力。尤其是 reasoning model 以后,可能超越了 lean 语言的证明能力。

如果是这样的话,继续研究 lean 的意义在哪?是因为更方便去验证证明对不对吗?

Phi-4-reasoning Technical Report

phi 系列的 reasoning 产品来了。作者发现根据题目的难度选择蒸馏什么数据对 o1-sft 作用很大,然后通过进一步做一点 rl 效果会更好

用 o3-mini 蒸数据的力量

Powered By Valine
v1.5.2