Aria-UI: Visual Grounding for GUI Instructions
一篇 GUI Grounding 的工作,作者用一套 pipeline,在电脑、手机等不同平台采集了各种 ui 元素的位置坐标,训练了一个 Grounding 模型。用这个模型做 Grounding,gpt4o 做 planning,在各个下游数据集上都表现很好。
之前有 uground、osatlas,都是这个方向的工作,seeclick 的分被越刷越高了。
LearnLM: Improving Gemini for Learning
gemini team. 一篇很有实际意义的工作,作者提到已有的 LM,描述知识时都是陈述式的,并没有解释或引导式的倾向。在教学领域,我们其实更希望 LM 可以引导、解释性的进行教学。作者把这个要求建模成了 instruction following 的形式,发现由此微调出来的 Gemini 在教学领域效果很好。
OpenAI o1 System Card
o3 出来了,o1 的 system card 终于上了 arxiv。不过是 system card,什么时候出个 technical report
v1.5.2