2024-11-27-insights

发表于 2024-11-27 更新于 2024-12-04 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 433 阅读时长 ≈ 1 分钟

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

一篇GUI Agent的工作，但是不是传统型，这次是改模型结构流的。作者搞了一套叫UI patch-wise connected graph，定义出来图片中的可点击位置，让模型学着只能在这些位置中做点击。用一个2B的qwen2，就把seeclick刷得还挺高的

Inference Scaling FLaws: The Limits of LLM Resampling with Imperfect Verifiers

普林斯顿的工作，作者发现inference rejected sampling是有瑕疵的。如果reward model本身不是完美的，比如test case不能覆盖到所有情况，那么通过reward model的trace是会有假阳的。问题在于，模型的假阳率到底高不高呢？作者在不同能力的模型上做了实验，发现基础模型的pass@1能力和假阳率强相关。基本存在一个scaling law