0%

2025-03-05-insights

ATLAS: Agent Tuning via Learning Critical Step

这篇工作也挺有趣的。作者提到了一个叫key step的概念,就是说agent sft数据里,对完成任务最重要、最需要推理的一些step,发现在critical step上加loss,只用30%的数据训练可能就足够了。

其实定义critical step是一个挺困难的事情,之前phi-4会把一次生成分别在不同的地方做sample,然后用平均胜率定义value,但是在agent场景,这个问题好像还没有被建模。

AppAgentX: Evolving GUI Agents as Proficient Smartphone Users

这篇工作,作者关注到gui agent的效率问题。能不能把经常出现的action组合,变成一个action,这样减少history里面的context占用呢?