0%

我对 ChatGPT 和近期 NLP 新形势的想法

过完新年,时间过去不长,没想到 NLP 领域却出现了新的风暴 ——ChatGPT (GPT-3.5-turbo)。ChatGPT 自身是 instructGPT+GPT3.5 的结合体,大概在去年 12 月,就是我得新冠那时候推出。我记得我当时还顶着高烧听 n+e 学长做分享,但没想到后来会到火出圈的程度。

昨天回高中宣讲,感觉现在 ChatGPT 的火热程度甚至超过了当时的 AlphaGO, 很多高中小朋友不知道大学的专业划分,就来问问 ChatGPT 属于哪个专业,叉院是时候成立一个 “chaì 班” 了,笑死。

新学期开始,感觉很多 NLP 的工作一下就显得不那么重要了,听说美国高校甚至很多 NLP 相关的项目直接被撤资了。我仔细回想了一下:这一切是怎么发生的,为什么 NLP 领域发展这么久,ChatGPT 就能一下获得这么高的关注度?

Align

传统的 NLP 模型、任务,一般是定义好了很多的 metric,然后大家通过 score 的高低去评判好坏。不过在文本生成领域,经典的 score 比如 BLEU,ROUGE-L 等等其实都有很多的问题,所以比较好的论文一般都会引入人工评测:让人去评 baseline 和新方法的生成质量高低。

ChatGPT 其实就是更进一步:既然我们引入人工评测,那干脆把人工评测当成一个信号,指导模型生成。这就是 RLHF 里的 HF (human feedback)。

说回到刚才的文本生成。任何的机器学习模型都是在进行拟合,或者说在 align 到某个指标。之前的指标是 align 到 score,而 ChatGPT 是 align 到 “人”。这就不难理解为什么” 人 “会更喜欢 ChatGPT 了。

就应用性和宣传性来说,human align 比起 score align 是具有显著优势的,毕竟冰冷冷的 score-SOTA 看起来也没什么大不了。” 想要让工作有好的宣传,一定要有一个更符合 human align 的展示形式 “,这是值得我们思考的第一个点。

Why ChatGPT?

ChatGPT 的 RLHF 思路的推导其实是比较正常的,但反过来想想,之前大家竟然没想到这么做?

其实也不是没想到,只是之前的 pretrain model 效果没有那么好。举个例子:

最近 meta AI 新挂出来一个 LLAMA-65B 模型宣称达到了新 SOTA,但在某数据集上有 69% 的 AUC,但 GPT-3.5-002 模型的 score 是 77.4%,何况现在 GPT-3.5 已经迭代到了 003。

类似的例子还有很多,无不说明 GPT-3.5 预训练模型冠绝世界,甚至技术代差似的 zero-shot 语义理解和生成能力。还记得两年前 GPT3 刚发布的时候,也很火,不过由于还是 score align,所以引入的关注度可能相对没有这么高。但这几年,openAI 一直在默默的迭代基础模型的能力:

  • 引入代码训练
  • 提高数据质量
  • 增强训练效率
  • 修改 backbone 表示能力
  • ...

其实,GPT2 开始,openAI 一直在宣传”in-context learning”,到 GPT3 宣传 “zero-shot” 概念,都是逐渐感受到了预训练模型能力膨胀带来的新趋势。很可惜,学术界到一直到 2022 年,关注度一直不是很高。主要原因是开源的预训练模型可能并没有达到这种效果,甚至 fine-tune、delta-tune 的效果还比不上人家的 in-context one-shot 效果。

有一些工作曾经提出:随着预训练模型的能力叠加到了一定限度,模型才能逐渐理解人的需求,理解人给出的 feedback 指标高低 “到底意味着什么”。关于这一点,其实我之前使用了我们实验室的 CPM3 进行过类似 HF 的实验,发现模型训练非常不稳定,会把得分高的语句的相关词语学成 “高平分的关键因素”。所以 GPT-3.5+RLHF, 可以说是如虎添翼,一拍即合了。

之前的发展先不谈,现在 ChatGPT 一出现,所有研究者都真正意识到 back-bone model 的技术代差了。洛阳纸贵,年后国内的算力供应商租卡价格都涨了大概 50%。估计未来一年到几年,中国几家大公司应该要开始卷大模型训练的算力、宣传了。

很多人说技术代差追不上,我到没有那么悲观,我倒觉得这个领域,钱比技术更重要。我们反而应该感谢 ChatGPT,让大家更愿意在这个领域投钱了,毕竟之前一个 run 就要 1000 万的价格,没有多少人愿意出。

预训练模型是一个很烧钱的事情,并且创新性不是很多,学术名声上也不是特别好,前几年一般都用 “军备竞赛” 之类的词形容,现在这个词也没人提了。openAI 一直在持续的做这件事,理由其实很简单:它是卖大模型 inference API 挣钱的。学术界一方面不挣钱,一方面大家不愿意投钱,产生差距很正常。

“为什么 openAI 可以从一个纯学术组织发展到现在自给自足盈利也很多,经济技术双丰收;其他高校和学术组织就像是啃老族,总是等着别人救济”,是值得我们思考的第二个问题。

RLHF and "super" pretrain model is all you need?

回到 RLHF 技术本身。那么以后大家就都做 RLHF 了吗?其实 instructGPT 自己也发现了:align 到任务和 align 到人某种意义上是冲突的。随着 RLHF,模型对于基础 NLP 任务的能力反而会下降。对这种现象,我的理解是:

随着预训练模型能力的增强,模型不是变得更强,而是变得更 “flat”,会更容易泛化到下游任务上。由 fine-tune 变成 prompt、instruction-tuning。

之前几年,很多 NLP 工作的开展形式是:

  • 发现问题,具体化定义问题
  • 制作数据集、定义 metric
  • 跑实验,做分析

我觉得其中的第二步、第三步未来可能会越来越不重要,因为对于 instruction tuning 来说,你很可能只需要用自然语言描述你的需求,模型就可以理解你的需求了。ChatGPT 令人着迷的点,正在于此:即使再抽象的需求,模型也可以理解,并且在只有几个或者没有 example 的情况下,做出相对不错的结果。

在这种情况下,在所有的研究的最开始,我们都要先提出两个问题:

  • 你的需求,为什么要用你的方法,而不是 ChatGPT?

  • 你的需求,ChatGPT 能做到多好,现在还不够好吗?

如果回答不出来,那么这个研究大约就是要被淘汰的。作为研究者,我们大约会衍生出两种研究选题:

  • 如果把大模型更好的 align 到下游的需求上去
  • 如何不用大模型或者在用不了大模型的场景下,提出更有优势的方法

“在 NLP 的新形势下,如何想出真正对时代有意义、有价值,让大家愿意顺着你的思路做下去的工作”,这是值得我们思考的第三个问题。

总之,无论愿不愿意,我认为 NLP 新的领域已经来临了,未来会有更多的投资、更多的关注度。作为研究员,既要思考 ChatGPT 成功的关键因素,也要想清楚新形势下的研究必须要满足什么条件。

  • 为什么我做不出来 ChatGPT?
  • 我可以做出来 “下一个 ChatGPT” 吗?

战战兢兢,如临深渊,如履薄冰。敌方回合结束,现在压力来到了我这边,希望我不会成为最先被淘汰的那个职业。

Powered By Valine
v1.5.2