2024-01-18-insights 发表于 2024-01-18 更新于 2024-08-09 分类于 Arxiv-Insights 阅读次数: Valine: 本文字数: 224 阅读时长 ≈ 1 分钟 昨天真恐怖……arxiv一天贡献了8个引用 REFT: Reasoning with REinforced Fine-Tuning 正常的CoT-finetuning,将(quesiton-CoT-answer)视为一条样本。没有考虑推理链的泛化性,这是因为标注数据实际上只有一条CoT链。 作者思考了一个self-training的框架:如果用题目做没做对的二值反馈作为reward,把这个场景建模成PPO。 我总感觉我见过一样的方法,我不确定我是不是记错了…… 相关文章 本月更新(Recent Update) arxiv-insights 2024-11-22-insights 2024-11-21-insights 2024-11-20-insights