前无古人后无来者的700篇新论文……刷论文硬控了我3天
Mean Flows for One-step Generative Modeling
万文丛中,一眼挑出来kaiming大佬的工作。其实我没看懂,看起来作者改进flow model的计算方式。
kaiming最近的几篇工作,好像都是focus在快速image generation方向上
Visual Agentic Reinforcement Fine-Tuning
类o3的一个尝试。作者做了vlm+tool的setting,如果在通用VLM的推理任务上,让模型可以写代码放大图片、可以调搜索引擎,在rl的过程中会变得更好吗?作者在这个setting上跑出了正收益,分享了一些认知
openai做啥我做啥
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation
seed的动作,和我们的一个早期探索有关。通过大量的工程开发,作者把很多尝见的逻辑游戏重写成了纯文本的形式,允许模型通过多轮交互的形式给出action,同时也会给出游戏引擎返回的每一轮分数。有了这个framework以后,后面无论是评测还是rl,都会变得很快捷。
新时代的数据资产
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
质量很高的工作。作者自己讨论了已有gui agent领域的perception和grounding的问题,由此构造出了一个新的osworld-G benchmark,更关注在grounding能力的评测上。甚至,作者还开源了巨大的grounding数据集,以此将已有模型在perception层面上拔升到了operator-level。
形式有点像之前multi ui,但是做到了全平台场景。感觉是我看到过的最好的gui数据集了