2025-05-23-insights

发表于 2025-05-25 更新于 2025-05-31 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 284 阅读时长 ≈ 1 分钟

ARPO: End-to-End Policy Optimization for GUI Agents with Experience Replay

我不确定这是不是我看到的第一个跑通GUI Agent end2end rl的工作，这篇工作里作者直接在osworld测试集做训练（减少对rm的依赖），然后对train reward做出了正收益。

前几天有个AgentRewardBench，测试Agent场景的ORM水平。今天出来了个Web-Shepherd，具体在webAgent场景评测PRM水平