0%

2025-04-18-insights

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

这篇工作中,作者强调了 gui 教程数据的重要性,作者把 wikihow 等几个数据源的数据转换成了多步执行的形式,然后训进模型,发现涨分了。

开源数据,推荐!

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

meta 就是有钱,找人标了 2.8M 个 video qa 和 caption,还开源了

开源,我直接推荐!

Exploring Expert Failures Improves LLM Agent Tuning

这篇工作的思路很精彩。作者发现目前的 sft 数据里,往往训练成功的 trace,但是这些任务更可能是简单的。作者认为,失败的 trace 里反而更可能蕴含一些信息价值极高的 step。能不能找到一种方案把这些 step 挑出来,然后也训进去呢?作者发现还真可以

Sleep-time Compute: Beyond Inference Scaling at Test-time

这篇工作做得场景比较简单,但是思想很深刻:作者发现目前的 o1 model,都是给出一个 query 以后,生成一大堆思考问题;但是,reason 需要的信息却不一定要和 query 相关。如果模型可以基于一些无 query 的语料做预先思考,等真的遇到问题是否就可以用更短的思考时间了呢?作者发现还真可以,并且在构造的 domain 上可以省 5 倍

我有个直觉,这个方法可能可以把 o1 做到预训练里去

Powered By Valine
v1.5.2