2025-06-19-insights

发表于 2025-06-20 更新于 2025-06-22 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 346 阅读时长 ≈ 1 分钟

Truncated Proximal Policy Optimization

seed的一篇工程算法结合的工作。作者发现同步online rl这类算法，有一个固有的缺陷：一次rollout的时间，受制于batch里最长时间的sample，所有节点都会等着它结束。能不能让超长的样本干脆不roll了，early stopping，同时用起来已经生成的token？作者从这里出发设计出来了T-PPO，展现了更强的训练效率

EMBODIED WEB AGENTS: Bridging Physical-Digital Realms for Integrated Agent Intelligence

这篇工作里，作者搭建了一个新的setting，让模型可以在完成具身任务的过程中搜索网页，由此连接了具身agent和web agent。