0%

2025-06-16-insights

Agent-RLVR: Training Software Engineering Agents via Guidance and Environment Rewards

印象中这是我第一个看到的SWE Agent领域的rl工作?甚至是scale AI搞的。作者搞了一个叫做guidance的setting,就是让模型先试一次,然后给出一些对于traj的反馈,再让模型重试一次