2022 年底,很多人第一次打开 ChatGPT 时,都会有一种很奇怪的感觉。

它不像搜索引擎,也不像语音助手,更不像过去那些一问一答、聊两句就索然无味的聊天机器人。你问它一个问题,它能答;你嫌它讲得不够清楚,它能继续解释;你让它换一种语气,它真的会换;你指出它错了,它甚至还会顺着你的意思重写一遍。

也是从那一刻起,AI 才开始真正从论文、实验室和科技新闻里走出来,变成普通人手边可以直接使用的东西。很多人后来回忆起第一次使用 ChatGPT 的体验,都会用到一个很相似的词:震撼

OpenAI|Introducing ChatGPT

OpenAI|Introducing ChatGPT

这种震撼当然来自模型能力,但又不只是模型能力。

因为真正值得追问的问题,从来不是 ChatGPT 为什么这么强,而是:为什么那么多早就存在的技术,偏偏在 2022 年,突然长成了 ChatGPT 这个样子?

先说结论。

ChatGPT 不是某个天才团队在一夜之间发明出来的产品。它更像是四条技术路线于同一时刻交汇的结果:Transformer 打开语言模型上限,规模化训练逼出能力跃迁,人类反馈训练把模型调成助手,而一个看似简单的聊天框,则把这一切转变成普通人能立刻上手的产品。

换句话说,ChatGPT 的爆发,不只是一次模型升级。

它更是一次技术、工程和产品判断同时到位后的结果。

ChatGPT 的起点,不是聊天,而是 Transformer

很多人第一次接触 ChatGPT,会很自然地把它理解成一个特别聪明的聊天机器人。

但这其实低估了它。

ChatGPT 的前史,不是从聊天开始的,而是从大语言模型的底层架构开始的。

2017 年,Google 提出 Transformer 架构。放到今天看,这几乎是整个大模型时代最关键的起点之一。该架构完全基于注意力机制,彻底摒弃递归和卷积结构,从而显著提高模型的并行性和训练效率。

它最重要的意义在于,它不只是让模型训练效果更好,而是让把模型继续做大这件事成为可能。

Attention Is All You Need

Attention Is All You Need

这是一个听起来没那么戏剧化、但影响却极其深远的转折。

在那之前,机器当然也能处理语言,也能做翻译、问答、文本生成,但它们很难被统一到一条足够强、足够大的技术路线里。Transformer 的出现,相当于给后来的 GPT 系列、大语言模型、乃至 ChatGPT,搭好一根真正能承重的主梁。

它没有直接发明「对话」。

但它让后来的一切,第一次有了长出来的土壤。

如果没有 Transformer,后来的 ChatGPT 很可能不会是今天这个样子。它不会这么大,不会这么通用,也不会这么像一个几乎什么都能聊两句的工具。

真正让行业兴奋的,是 GPT-3 证明了一件事:规模真的会出奇迹

Transformer 解决的是能不能做大的问题。

而 GPT-3 解决的,是做大之后会发生什么的问题。

2020 年,OpenAI 推出 GPT-3。1750 亿参数,这在当时是一个天文数字。但真正让行业震动的,不只是它有多大,而是它表现出来的通用性。同一个模型,不经过专门微调,就能够在翻译、问答、改写、代码生成等各种任务里给出像样的结果。

GPT-3 论文将这种能力概括为 few-shot / in-context learning

Language Models are Few-Shot Learners

Language Models are Few-Shot Learners

这件事的意义,远不止模型更强了。

它改变了人们对 AI 的想象

在 GPT-3 之前,很多人对 AI 的理解,仍然停留在为每个任务做一个模型。翻译有翻译模型,推荐有推荐模型,语音识别有语音识别模型,大家习惯了让模型在单点任务上变强。

GPT-3 则给出了一个截然不同的答案:也许你不需要先把世界拆成无数个小任务,再一个个教会模型。也许你只需要先训练出一个足够大的通用模型,它自己就会在规模扩张的过程中,长出许多以前只能靠专门系统完成的能力。

也是在那个阶段,Scaling Laws 开始被越来越多人当成行业共识。

OpenAI 在 Scaling Laws for Neural Language Models 中指出,模型规模、数据规模和算力提升会带来可预测的性能改善,而这种改善在很大范围内呈幂律趋势。

Scaling Laws for Neural Language Models

Scaling Laws for Neural Language Models

回头看,GPT-3 之所以重要,不只是因为它很强。

而是因为它让整个行业第一次真正相信:通往更强 AI 的道路,也许真的可以靠继续把模型做大来打开

GPT 到 ChatGPT,中间差的不是更大,而是更「听人话」

问题也恰恰出现在这里。

GPT-3 很强,但它并不好用。

它能写出惊艳的句子,也能在许多任务上给出超出预期的结果。但它同样会跑题,会误解指令,会一本正经地胡说八道。很多时候,你不是在使用它,更像是在试探它、猜它、适应它。

它更像一台能力强大的语言引擎。

但还不像一个真正能配合你的助手。

这就是 ChatGPT 出现之前,最关键的一道门槛。

OpenAI 后来补上的,并不是让模型更大,而是让模型变成人类想要的工具。这背后的核心,就是 InstructGPT,以及 RLHF,也就是人类反馈强化学习。

InstructGPT 论文明确指出,单纯把语言模型做大,并不会天然提升它遵循用户意图的能力。

Training language models to follow instructions with human feedback

Training language models to follow instructions with human feedback

这个思路说起来并不复杂。

先让人类写出更理想的回答,再让人类去比较不同回答哪个更好,最后再用这些偏好去反过来训练模型。模型慢慢学到的,不再只是语言应该怎么接,而是人类到底更喜欢怎样的回答方式。

看上去只是把味道调顺了一点。

其实不是。

这是一次角色变化。

从这一刻开始,模型的目标不再只是生成一段合理文字,而是尽可能去理解人的意图、配合人的需求、顺着人的工作方式往下走。

这是 GPT 到 ChatGPT 之间,最重要的一步。

参数决定了能力上限

对齐决定了可用下限

会说,不等于会帮你。

而 ChatGPT 的关键突破,恰恰就在「帮你」这两个字上。

真正改变世界的,也许不是模型,而是那个聊天框

技术走到这里,其实还不够。

AI 行业从来不缺惊艳的论文,也不缺实验室里的演示。真正稀缺的,是一种能让普通人立刻理解、立刻上手、立刻感到这东西有用的产品形态。

而 ChatGPT 在 2022 年爆发,一个被低估的原因就是:

OpenAI 给它套上了一个最朴素、却也最强大的产品外壳——聊天框。

ChatGPT

ChatGPT

没有开发者后台,没有复杂设置,没有专业门槛,没有一大堆需要预先学会的操作逻辑。

你只需输入一句话。

剩下的,它来接。

这个动作看上去太简单了,简单到容易让人忽略它的重要性。

你不需要懂 Transformer,不需要懂参数规模,不需要懂强化学习,甚至不需要知道「大语言模型」这五个字是什么意思。你只需要像平时说话一样,把问题丢给它。

它接住了。

这也是为什么,很多人第一次被 ChatGPT 震住时,不是看懂了论文,不是了解了 benchmark,更不是科技媒体告诉你「新时代来了」。

而是那个瞬间太直接了。

你对着一个聊天框说一句话,它真的顺着你的意思往下走了。

它不是简单返回一个结果。

它是在参与。

这才是 ChatGPT 最像被发明出来的地方。

后来的升级,补齐的不是魔法感,而是工具感

如果说 2022 年的 ChatGPT 最吸引人的地方,是它像魔法。

那么之后几代模型的工作,就是把这种魔法慢慢磨成工具。

GPT-4 带来的,不只是答案更漂亮,也不只是文风更成熟。它补齐的是复杂任务里的稳定性,是更强一点的推理能力,是在更多场景下的可靠性。

GPT-4 技术报告里把 GPT-4 模型定义为可接受图像与文本输入,输出文本的大规模多模态模型,这标志着 ChatGPT 开始从「会聊天」走向「更能处理复杂任务」。

GPT-4 Technical Report

GPT-4 Technical Report

再往后,多模态成为新方向。

模型不再只处理文字,也开始看图、听声音、做更自然的互动。

OpenAI 在 GPT-4o 发布页中把它描述为文本、图像与音频能力更原生地融合在一起的模型,这也进一步说明,ChatGPT 想做的不只是一个文本聊天机器人,而是一个更通用的数字接口。

OpenAI|Hello GPT-4o

OpenAI|Hello GPT-4o

它会写,会看,会听,会调用工具,会进入人的工作流程。

它不再只是回答问题。

它开始试着帮人做事。

从这个意义上说,ChatGPT 后来的升级,并不是单纯为了让它更像人,而是为了让它更像一件耐用的工具。

更强的推理,是为了少犯错。

更长的上下文,是为了处理更完整的任务。

多模态能力,是为了不只活在文本世界里。

过去的软件,需要人去学习它的用法。

现在的大模型工具,开始反过来学习人的语言。

这不只是产品的变化。

这是人与工具关系的变化。

而这种关系,直到今天,我们可能都还没有适应完。