Synthetic continued pretraining
一篇挺神奇的工作,将高效continue pretrain的:作者认为传统的CT需要巨大的domain corpus来让模型习得新的能力,这个方式比较低效(data-inefficient)。如果语料本身是弱监督信号,能不能直接抽取语料里面的各种实体关系,变成类知识图谱,再把知识图谱重新合成成流畅的、小规模的CT文本呢?作者发现这样是可以的
有种怪怪的感觉,像是把”知识”这个概念规约成了实体关系,再把实体关系规则蒸馏进了模型里:等价于LLM外挂知识库?