0%

2024-10-28-insights

发表于 2024-10-28 更新于 2024-10-31 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 1.1k 阅读时长 ≈ 1 分钟

最近发现有些好玩的工作甚至也没挂AI track，现在我每天把AI track和CV track同时看一遍……正好今天GUI Agent工作大爆发了，全列一遍

NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction

一篇做fmri重建的工作，想把人脑子里想的东西通过视频生成的方式搞出来。我记得之前看到过一篇生成图片的工作。

感觉研究这个方向挺好玩的，估计我研究的话每天有动力早起写代码

VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks

如果大家还记得visualWebArena，今天出了个videoWebArena。也是benchmark类的工作，作者认为目前的GUI Agent都是VLM或者LLM，没有人考虑过视频理解。所以作者设计了2000个必须要有视频理解能力才能解决的GUI Task

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

了解 GUI领域的人，一定知道1月份的时候有个叫webvoyager的工作，主要是通过Prompt + GPT-4v增强做的GUI Agent。今天同团队出了训模型的工作，还挺solid的。先用4o的数据做SFT，后面接了个offline RL pipeline多轮迭代增强自己。

其实和这个最像的工作是Kumar之前做的一个叫DigiRL的工作，他俩不知道比没比过

INFOGENT: An Agent-Based Framework for Web Information Aggregation

Heng Ji老师的工作，聚焦到了information seeking场景。作者发现，已有数据集基本上把information seeking认为成只有一个对应的数据源，作者开发了一套整合多个数据源、联立API和GUI两种动作空间的Agent。

联合动作空间的思路挺有意思的，后面是不是大家又发现GUI Agent和API-based Tool Learning是可以结合的……

EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data

一个新的webpage数据集的工作，大体上还是使用页面解析的方案，这个领域最近有nuebig做的MultiUI质量最高，这篇可能是被neubig卷到了吧