前无古人后无来者的 700 篇新论文…… 刷论文硬控了我 3 天
Mean Flows for One-step Generative Modeling
万文丛中,一眼挑出来 kaiming 大佬的工作。其实我没看懂,看起来作者改进 flow model 的计算方式。
kaiming 最近的几篇工作,好像都是 focus 在快速 image generation 方向上
Visual Agentic Reinforcement Fine-Tuning
类 o3 的一个尝试。作者做了 vlm+tool 的 setting,如果在通用 VLM 的推理任务上,让模型可以写代码放大图片、可以调搜索引擎,在 rl 的过程中会变得更好吗?作者在这个 setting 上跑出了正收益,分享了一些认知
openai 做啥我做啥
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation
seed 的动作,和我们的一个早期探索有关。通过大量的工程开发,作者把很多尝见的逻辑游戏重写成了纯文本的形式,允许模型通过多轮交互的形式给出 action,同时也会给出游戏引擎返回的每一轮分数。有了这个 framework 以后,后面无论是评测还是 rl,都会变得很快捷。
新时代的数据资产
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
质量很高的工作。作者自己讨论了已有 gui agent 领域的 perception 和 grounding 的问题,由此构造出了一个新的 osworld-G benchmark,更关注在 grounding 能力的评测上。甚至,作者还开源了巨大的 grounding 数据集,以此将已有模型在 perception 层面上拔升到了 operator-level。
形式有点像之前 multi ui,但是做到了全平台场景。感觉是我看到过的最好的 gui 数据集了
v1.5.2