2025-07-28-insights

发表于 2025-07-29 更新于 2025-08-07 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 557 阅读时长 ≈ 1 分钟

OS-MAP: How Far Can Computer-Using Agents Go in Breadth and Depth?

这是一个新的CUA评测集，类似OSWorld的评测逻辑，每个题有对应的评测脚本。事实上，这个评测集就是包含osworld的，但是作者额外标注了一些其他的题。然后对每个题的难度、指令遵循性做了分类

上次的Sciboard和这个OSMAP，现在cua测试集必须像osworld一样搞个扇形图了嘛

yet another CUA benchmark，作者也是把任务做了一个分级。不过和上面那个不同，这个评测集除了多步任务，还有grounding/perception的qa任务。

话说这个ui-tars的perception怎么测得这么低……

这是step3的工程论文，作者在这里主要讲的是工程效率，而不是效果。作者如果通过软硬件联合开发，把解码成本降下来

感觉大MoE decoding的降本增效还有挺多空间的，只是似乎不是学术界关注的问题