2025-08-19-insights

发表于 2025-08-24 更新于 2025-09-02 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 239 阅读时长 ≈ 1 分钟

Ovis2.5 Technical Report

阿里竟然出了一个不是qwen vl的vlm。作者做了一个5阶段的训练，包含最后的thinking rl环节

Qwen3-vl还会有吗

这是一篇通用领域rl的工作。作者想要把reasoning rl这套搬到非rlvr领域。但是该如何verify任务正确性呢？作者找标注员和模型去一个个任务写评价标准，让模型根据标准给答案打分，以此做了一个rubric-based训练集。