ShowUI: One Vision-Language-Action Model for GUI Visual Agent
一篇GUI Agent的工作,但是不是传统型,这次是改模型结构流的。作者搞了一套叫UI patch-wise connected graph
,定义出来图片中的可点击位置,让模型学着只能在这些位置中做点击。用一个2B的qwen2,就把seeclick刷得还挺高的
Inference Scaling FLaws: The Limits of LLM Resampling with Imperfect Verifiers
普林斯顿的工作,作者发现inference rejected sampling是有瑕疵的。如果reward model本身不是完美的,比如test case不能覆盖到所有情况,那么通过reward model的trace是会有假阳的。问题在于,模型的假阳率到底高不高呢?作者在不同能力的模型上做了实验,发现基础模型的pass@1能力和假阳率强相关。基本存在一个scaling law