今天找了几个,全是关于 Math 的
TinyGSM: achieving > 80% on GSM8k with small language models
经典的 math 场景加数据训练的模型,作者用 turbo 生成了 12.5M 的 GSM8K 换皮 qa 对,然后在 phi 系列模型上训练。发现数据上去以后,即使 125M 的模型在 GSM8K 上的表现都很好
GSM8K 版的 MathGLM…… 但是数据没开源。可惜
Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning
之前 "verify step by step" 里说的 step reward model 一直没找到开源的实现或者复现,这次作者在 MATH 和 GSM8K 上用伪数据训了一个开源版本。发现用 step-reward,可以把 Math 刷到接近 50%
这个和上面那个结合一下…… 是不是能把 MATH 搞到 100%
v1.5.2