Truncated Proximal Policy Optimization
seed的一篇工程算法结合的工作。作者发现同步online rl这类算法,有一个固有的缺陷:一次rollout的时间,受制于batch里最长时间的sample,所有节点都会等着它结束。能不能让超长的样本干脆不roll了,early stopping,同时用起来已经生成的token?作者从这里出发设计出来了T-PPO,展现了更强的训练效率

EMBODIED WEB AGENTS: Bridging Physical-Digital Realms for Integrated Agent Intelligence
这篇工作里,作者搭建了一个新的setting,让模型可以在完成具身任务的过程中搜索网页,由此连接了具身agent和web agent。
