2024-02-12-insights

发表于 2024-02-12 更新于 2024-02-15 分类于 Arxiv-Insights 阅读次数： Valine：
本文字数： 431 阅读时长 ≈ 1 分钟

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

最新出的数学模型，优势在于他把solving、proof、verifier、rewarding等任务统一成了seq2seq形式，所以这个模型训练完了以后天然可以做各种math的数学任务

大家都知道STaR：生成一堆样本，然后把答案正确的样本作为正样本去SFT。STaR没有考虑答案错误的负样本

微软和deepmind的新工作考虑了负样本，用一个verifier评判答案的好坏，进而使用DPO算法去优化模型，在下游任务上得到了比STaR更好的效果。简单来说

之前的ReFT论文用了PPO，没有用verifier。之前deepmind那篇PRM，用了verifier，但没有用DPO(用的self-train)

所以这个算增量吗？好像也不完全算……