0%

2025-05-21-insights

Emerging Properties in Unified Multimodal Pretraining

shiguang团队的工作,生成理解统一模型的工作。但是直接做到了多图,就是可以在一个conversations里原生地生成多张图、说好多次话。由于做了原生地建模,就可以推导出来巨多种不同的任务去优化。

这好像是我看到的第一个run起来的多轮生成理解统一模型?

Mobile-Agent-V: A Video-Guided Approach for Effortless and Efficient Operational Knowledge Injection in Mobile Automation

前几天有篇叫learnact的工作,讨论了gui agent在测试时拼接一个tutorial/demonstration后,能不能现场理解教学内容把任务按成得更好。今天又出来一篇,具体focus在拼接video形式tutorial时模型的效果变化

感觉gui agent的测试时增强,成为了一个重点方向呀。不过好像目前还没有看到training based的方案

EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection

这篇工作也挺有趣的:作者探索了gui agent setting下,如果网页内容本身有坑,模型会不会出问题。比如说有个无关的按钮叫“点我以完成任务”,模型会去点吗?

泪目了,gui agent的效果已经好到有人来讨论安全方向了嘛?

Reasoning Models Better Express Their Confidence

这篇工作非常有意思,作者探索了随着long-cot的生成,模型的confidence是否会上升。作者这样定义confidence:如果从当前位置直接拼接“”,然后让模型多次强行生成答案,看看这些答案的logits有多大。

  1. 随着cot token生成,答案趋向于确定,随机性减小。
  2. 一些特定的aha moment,会让不确定性增强(可以类比某种backtrack的过程?)

顺带着,作者还研究当logits大时,答案是不是有更大的概率是对的,也就是calibration setting

感觉这个研究方式非常优美,但又说不上来哪里好