2025-06-16-insights 发表于 2025-06-16 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 176 阅读时长 ≈ 1 分钟 Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards印象中这是我第一个看到的SWE Agent领域的rl工作?甚至是scale AI搞的。作者搞了一个叫做guidance的setting,就是让模型先试一次,然后给出一些对于traj的反馈,再让模型重试一次 相关文章 本月更新(Recent Update) arxiv-insights 2025-06-13-insights 2025-06-12-insights 2025-06-11-insights