0%

2025-05-23-insights

ARPO: End-to-End Policy Optimization for GUI Agents with Experience Replay

我不确定这是不是我看到的第一个跑通GUI Agent end2end rl的工作,这篇工作里作者直接在osworld测试集做训练(减少对rm的依赖),然后对train reward做出了正收益。

WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents

前几天有个AgentRewardBench,测试Agent场景的ORM水平。今天出来了个Web-Shepherd,具体在webAgent场景评测PRM水平