CogAgent, AutoWebGLM, Ferret-UI, OSWorld: GUIAgent之二三四

昨天apple出了个Ferret-UI VLM模型专门针对手机的理解任务，恰好上周看到了唐杰老师的AutoWebGLM，是让GLM LLM操作网页，再之前的CogAgent通过VLM可以同时操作手机、网页……最近一段时间通过操控GUI来实现操控手机、电脑的研究正在逐渐增加，来一起看一下他们都是怎么做的吧。参考文献：

Every Step Counts: Growing General Vision Language Model to GUI Agent

OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

CogAgent: A Visual Language Model for GUI Agents

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

何为GUI-Agent及其过去

GUI-Agent主要指的是：让大模型操纵手机、电脑，来自动化完成一些任务。从去年大家做LLM在ALFWorld、24点等传统的文本推理任务，到今年开始想着GUI领域的多模态推理，其实基本是一波人在研究，方法应该差的也不是很远。不过，在GUI领域看到Agent一步步的操作设备，确实是一件很“酷”的事情。

其实

随缘随笔
Insights Flow

CogAgent, AutoWebGLM, Ferret-UI, OSWorld: GUIAgent之二三四

何为GUI-Agent及其过去

GUI-Agent in 2024