0%

2025-04-15-insights

AGENTREWARDBENCH: Evaluating Automatic Evaluations of Web Agent Trajectories

一篇有趣的工作,这里作者不关注gui agent的性能,而是去关注能不能对trace进行打分。作者找了一堆benchmark,一堆agent做出来了trace,然后让人打分,最后实现了一些rewarder,和人算一致性。

今天刚看了shunyu的the second half,感觉这类reward工作以后会越来越火的

Breaking the Data Barrier – Building GUI Agents Through Task Generalization

这是一篇探索gui agent model训练的工作,做得还挺solid的。作者纵向对比了不同类型的vlm训练数据对gui agent场景到底有什么影响,发现:math/code对gui有帮助,gui perception反而对gui agent没什么帮助。

我们之前做ui-tars,加入了教程数据,如果这篇对比一下gui tutorial的帮助就好了