2024-07-01-insights 发表于 2024-07-01 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 240 阅读时长 ≈ 1 分钟 Scaling Synthetic Data Creation with 1,000,000,000 Personas 腾讯的论文,一个很"贵"的论文。作者合成了足足1B的persona,他们把persona定义成了system prompt "You are a xxx"这种描述。同时在各种合成了场景的SFT数据,通过这个方案,作者在很多benchmark上让7B模型分刷得巨高。不知道有没有data contamination问题 只开源了其中的200k……可惜 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-21-insights 2024-11-20-insights 2024-11-19-insights