2025-07-03-insights

发表于 2025-07-03 更新于 2025-07-12 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 117 阅读时长 ≈ 1 分钟

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

skywork之前开源了一个reward model，今天又迭代到了2期。足足训了2400万的pair数据