2025-07-03-insights 发表于 2025-07-03 更新于 2025-07-04 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 117 阅读时长 ≈ 1 分钟 Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy skywork之前开源了一个reward model,今天又迭代到了2期。足足训了2400万的pair数据 相关文章 本月更新(Recent Update) arxiv-insights 2025-07-04-insights 2025-07-02-insights 2025-07-01-insights