2025-06-16-insights

发表于 2025-06-16 更新于 2025-06-22 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 176 阅读时长 ≈ 1 分钟

Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards

印象中这是我第一个看到的SWE Agent领域的rl工作？甚至是scale AI搞的。作者搞了一个叫做guidance的setting，就是让模型先试一次，然后给出一些对于traj的反馈，再让模型重试一次