Aria-UI: Visual Grounding for GUI Instructions
一篇GUI Grounding的工作,作者用一套pipeline,在电脑、手机等不同平台采集了各种ui元素的位置坐标,训练了一个Grounding模型。用这个模型做Grounding,gpt4o做planning,在各个下游数据集上都表现很好。
之前有uground、osatlas,都是这个方向的工作,seeclick的分被越刷越高了。
LearnLM: Improving Gemini for Learning
gemini team. 一篇很有实际意义的工作,作者提到已有的LM,描述知识时都是陈述式的,并没有解释或引导式的倾向。在教学领域,我们其实更希望LM可以引导、解释性的进行教学。作者把这个要求建模成了instruction following的形式,发现由此微调出来的Gemini在教学领域效果很好。
OpenAI o1 System Card
o3出来了,o1的system card终于上了arxiv。不过是system card,什么时候出个technical report