0%

2025-09-03-insights

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

首先就是推荐我自己的工作,半年前发布了ui tars 1,最近迭代到了2。主要进步在于,我们进一步scaling了数据和场景,然后跑通了end2end rl。其实论文里能讲的东西很有限,但是大家真的做了很多有意思的工作。

真的,我很想开源模型

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

一篇开源agent rl训练的工作,作者在verl基础上适配了常见的agent工具,然后在单轮、多轮等多个场景做了简单的训练。

这种才是好工作

LongCat-Flash Technical Report

美团出的LLM,比较有趣的是,这是一个dynamic MoE,就是每个token激活的专家数不是固定的,