2025-05-20-insights

前无古人后无来者的700篇新论文……刷论文硬控了我3天

Mean Flows for One-step Generative Modeling

万文丛中，一眼挑出来kaiming大佬的工作。其实我没看懂，看起来作者改进flow model的计算方式。

kaiming最近的几篇工作，好像都是focus在快速image generation方向上

Visual Agentic Reinforcement Fine-Tuning

类o3的一个尝试。作者做了vlm+tool的setting，如果在通用VLM的推理任务上，让模型可以写代码放大图片、可以调搜索引擎，在rl的过程中会变得更好吗？作者在这个setting上跑出了正收益，分享了一些认知

openai做啥我做啥

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

seed的动作，和我们的一个早期探索有关。通过大量的工程开发，作者把很多尝见的逻辑游戏重写成了纯文本的形式，允许模型通过多轮交互的形式给出action，同时也会给出游戏引擎返回的每一轮分数。有了这个framework以后，后面无论是评测还是rl，都会变得很快捷。

新时代的数据资产

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

质量很高的工作。作者自己讨论了已有gui agent领域的perception和grounding的问题，由此构造出了一个新的osworld-G benchmark，更关注在grounding能力的评测上。甚至，作者还开源了巨大的grounding数据集，以此将已有模型在perception层面上拔升到了operator-level。

形式有点像之前multi ui，但是做到了全平台场景。感觉是我看到过的最好的gui数据集了