0%

2025-09-03-insights

发表于 2025-09-08 更新于 2025-09-19 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 405 阅读时长 ≈ 1 分钟

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

首先就是推荐我自己的工作，半年前发布了ui tars 1，最近迭代到了2。主要进步在于，我们进一步scaling了数据和场景，然后跑通了end2end rl。其实论文里能讲的东西很有限，但是大家真的做了很多有意思的工作。

真的，我很想开源模型

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

一篇开源agent rl训练的工作，作者在verl基础上适配了常见的agent工具，然后在单轮、多轮等多个场景做了简单的训练。

这种才是好工作

LongCat-Flash Technical Report

美团出的LLM，比较有趣的是，这是一个dynamic MoE，就是每个token激活的专家数不是固定的，