OS-MAP: How Far Can Computer-Using Agents Go in Breadth and Depth?
这是一个新的CUA评测集,类似OSWorld的评测逻辑,每个题有对应的评测脚本。事实上,这个评测集就是包含osworld的,但是作者额外标注了一些其他的题。然后对每个题的难度、指令遵循性做了分类
上次的Sciboard和这个OSMAP,现在cua测试集必须像osworld一样搞个扇形图了嘛

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
yet another CUA benchmark,作者也是把任务做了一个分级。不过和上面那个不同,这个评测集除了多步任务,还有grounding/perception的qa任务。
话说这个ui-tars的perception怎么测得这么低……

Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding
这是step3的工程论文,作者在这里主要讲的是工程效率,而不是效果。作者如果通过软硬件联合开发,把解码成本降下来
感觉大MoE decoding的降本增效还有挺多空间的,只是似乎不是学术界关注的问题
