Editor's
note

1948 年贝尔实验室,香农随手写下一段计算机生成的"英文":"THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER..."——每个词都拼写正确,每两个相邻词都看似自然,但整体不知所云。这是马尔可夫链跑出来的"二阶词级英文",是人类历史上第一段由概率模型生成的语言。

77 年后的 2025 年 1 月,杭州深度求索发布的 R1 模型在没有任何人类示范下,自己学会了在数学题中间停下来说:"Wait, wait. Wait. That's an aha moment I can flag here."

这两个事件之间隔着 11 篇核心论文、3 次范式翻车、一个被 4chan 泄漏的权重、和约 8 个数量级训练算力。这条线的人物坐标:Shannon → Bengio → Mikolov → Bahdanau → Vaswani → Devlin → Radford → Brown → Hoffmann → Ouyang → Touvron → DeepSeek——12 个名字,77 年。

Figure 1 — The long arc 1948 → 2025

77 年,一条从"贝尔实验室手算 1.3 bit/字符"开始、在"杭州 $5.6M MoE + 自涌现反思"达到当下顶点的技术线。

Information Theory Neural Foundations Transformer Era Scaling & Alignment Reasoning 1950 1960 1970 1980 1990 2000 2010 2020 Shannon1948 Bengio NPLM word2vec '13 attention/seq2seq '14 Transformer2017 ELMo/GPT-1 '18 BERT/GPT-2 '19 GPT-3 '20 Chinchilla / RLHF '22 GPT-4 / LLaMA '23 DeepSeek-V3 '24 R12025
Figure 2 · Citation DAG 115 节点 · 154 条边

以 Vaswani 2017 Transformer 为种子的 LLM 引用网络

从 OpenAlex 抓 Vaswani 论文的 references(祖先)和 citations(后裔),加上手工补全的 20 个核心节点之间的叙事链。Transformer 是这张图的引力中心——它的祖先是 attention/seq2seq/LSTM/ResNet,它的后裔是 BERT/GPT 全家族,它的横向亲戚是 ViT、AlphaFold 2。

INFO THEORY NEURAL FOUNDATIONS TRANSFORMER SCALING & PRETRAIN ALIGNMENT & OPEN 1948 1990 2003 2013 2017 2019 2020 2022 2024 2025 Shannon 1948 Bengio NPLM word2vec seq2seq attention Transformer ELMo GPT-1 BERT GPT-2 GPT-3 Scaling Laws Chinchilla CoT InstructGPT Constitutional AI GPT-4 LLaMA DeepSeek-V3 DeepSeek-R1
种子(Transformer)
核心 20 篇
背景后裔节点
→ accent 边 = Transformer 直接 in/out

115 个节点:20 核心 + 15 祖先(Transformer 的 references) + 80 后裔(top citers)。154 条边:含 27 条手工补全的核心叙事链(Shannon → Bengio → word2vec → seq2seq/attention → Transformer → BERT/GPT → GPT-3 → Chinchilla/InstructGPT → LLaMA → V3 → R1)。
来源:OpenAlex API 2026-04 · seed = doi:10.48550/arXiv.1706.03762 · citation_graph.json

I.
1948 · 信息论奠基

1.3 比特的赌注

香农写下"THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER..."——人类历史上第一段由概率模型生成的语言。

shannon
Claude Shannon(1916-2001)— 贝尔实验室与MIT数学家,'信息论之父'。1948年在《Bell System Technical Journal》发表《A Mathematical Theory of Communication》,定义比特(bit)、信源熵H=-Σp·log p、信道容量等核心概念,奠定整个数字通信与压缩的数学基础。同一论文中他用n-gram链生成英文文本('THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER...'),是现代语言模型最早的雏形。1956年与McCarthy、Minsky共同发起达特茅斯会议。来源:Wikimedia Commons · Tekniska museet · CC BY 2.0 · 约1950sHIGH

香农的《通信的数学理论》在 1948 年 7 月与 10 月 分两期发表于《Bell System Technical Journal》。今天它通常被算作信息论的奠基论文,但其中有一节"英文统计结构",其实也是最早的语言模型实验

香农的方法是马尔可夫链:用 26 个字母 + 空格共 27 个符号,统计相邻 2-gram、3-gram 出现频率,再让计算机按这些频率随机抽样。结果就是开头那段"THE HEAD AND..."。当 n 增加到词级 bigram 时,模型已能产出语法正确但语义崩坏的英文——这是后来 70 多年所有语言模型共同的婴儿症状。

更深刻的贡献是:香农招募人类受试者玩"猜下一个字母"游戏,估算出英文熵的上下限大约 1.0–1.3 比特/字符。这个数字成为后来所有语言模型评测的隐含天花板。压缩与建模在数学上是同一件事:能压得越紧,对语言的理解就越深。这一信念支配着此后整整 77 年的研究方向。

对一种语言的统计结构的研究,给我们提供了一种估算其熵的方法。— Shannon, 1948
II.
2003 · 神经语言模型萌芽

17M 参数的孤勇者

Bengio 团队在蒙特利尔训了百万级参数神经网络,跑了 3 周,比 Kneser-Ney 五元语法困惑度低 24%。

bengio
Yoshua Bengio(1964-)— 蒙特利尔大学教授、Mila研究所创始人。2003年发表《A Neural Probabilistic Language Model》(NPLM),首次系统证明用神经网络共同学习'词向量+语言模型'可缓解n-gram的维度灾难,是现代词嵌入与大语言模型的直接源头。2014年提出注意力机制(Bahdanau attention)应用于神经机器翻译,成为后来Transformer的关键灵感。论文h指数全球计算机科学家最高之一。2018年与Hinton、LeCun共获图灵奖。本图摄于ICLR 2025(新加坡)。来源:Wikimedia Commons · Xuthoria · CC BY-SA 4.0 · 2025HIGH

整整 55 年,自然语言处理领域被 n-gram 主宰。它简单、快、能在内存里塞下几十亿条 5-gram 表,被认为是"工程上完美的解"。直到 2003 年 2 月,蒙特利尔大学的 Yoshua Bengio 团队在 Journal of Machine Learning Research 发表《一个神经概率语言模型》。

他们做了一件当时被同行视为浪费时间的事:用一个大约百万级参数的多层神经网络,把每个词学成 30-100 维的实数向量(词嵌入),再用一个 MLP 预测下一个词。在 AP News 数据上跑了 3 周,最终困惑度比当时最强的 Kneser-Ney 五元语法低 24%——109 vs 142。

A Neural Probabilistic Language Model
Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin · JMLR 3 · 11,000+ citations
第一次明确证明:神经网络可以在语言任务上击败统计方法。Bengio 在论文末尾写下预言:"更大的模型、更多的数据、更长的训练,应该能进一步改进。"

这是神经网络第一次在语言任务上明确击败统计方法。但同行质疑很多:模型太慢、要 3 周训练、参数百万级(n-gram 表可以是几十亿)、没有压倒性优势。Bengio 自己也承认 scale 不上去。但二十年后,"更大、更多、更长"成为千亿级 LLM 的口号。

III.
2013-01 · 词向量

King − Man + Woman ≈ Queen

Mikolov 在 100 亿词上跑出 1000 维词向量,让"语义代数"成为几何上可见的事实。

2013 年 1 月 16 日Tomáš Mikolov 在 arXiv 提交一篇标题朴素的论文:《向量空间中词表示的高效估计》。论文核心是两个极简模型——CBOW(用上下文猜中心词)和 Skip-gram(用中心词猜上下文)。它们没有隐藏层,本质是两个矩阵乘法。但这个简化让 Mikolov 得以在 Google News 60 亿 token 上跑出 1000 维词向量。

真正点燃整个领域的是论文末尾那个魔术:把 "king" 减去 "man" 再加上 "woman",最近邻几乎总是 "queen"词与词之间的语义关系,竟然以代数形式存在于向量空间。一夜之间,Skip-gram 训出的 word2vec 词向量被无数研究者下载、可视化、用来做谱聚类、当输入特征。

66.1%
Skip-gram 1000 维词向量在语义类比题上的准确率 Microsoft Sentence Completion 上达到 58.9%——这是浅层模型的极限,但已让神经网络阵营从此再没退路。Mikolov et al. · arXiv:1301.3781 · Table 4

word2vec 之所以成为 LLM 史上的关键节点,并不是因为它本身能做什么——它做不了翻译、问答、对话——而是因为它第一次让"语言可以被代数化"成为一个几何上可见的事实

IV.
2014-09 · 同月双匙

Sutskever vs Bahdanau

2014 年 9 月 1 日 attention 提交、9 月 10 日 seq2seq 提交,相隔 9 天,决定一个范式的命运。

2014 年 9 月 1 日,蒙特利尔大学的 Bahdanau、Cho 与 Bengio 在 arXiv 提交论文 1409.0473,提出注意力机制:让 decoder 在生成每个目标词时给源句每个位置打权重,再加权求和。WMT'14 英→法翻译 BLEU 36.15,首次匹敌短语级统计机器翻译 Moses 的 35.63

9 天后,Google Brain 的 Sutskever、Vinyals 与 Le 提交论文 1409.3215,用 4 层 LSTM 做 encoder-decoder(seq2seq),8 GPU 跑 10 天,BLEU 36.5。论文里有一个奇怪的"trick":把源句反着输入,BLEU 涨 4.7——因为反向输入让源句和目标句在时间上更接近,缓解了 LSTM 对长依赖的失忆。

对照:两条路线的关键参数

两篇论文同月发表,针对同一任务、用同一个 baseline、得到几乎相同的 BLEU。但它们的命运不同:seq2seq 是"用更大力气把整句压进单个固定向量"的极致;attention 则直接放弃了这种压缩——你不需要记住整句,只需要在生成时回头看。

后来的故事大家都知道:3 年后 Vaswani 把两人的成果合并,扔掉 LSTM,只留 attention,得到 Transformer

Bahdanau 论文 Figure 3 第一次把 attention 矩阵画成软对齐图——模型自动学出英语 "European Economic Area" 对齐法语 "zone économique européenne",并且非单调地跳跃了语序。— 2014-09-01 arXiv:1409.0473
V.
2017-06 · Transformer

Attention Is All You Need

Google Brain 8 人小组 6 个月构思 — 65M 参数、12 小时训练、BLEU 28.4 — 一个动作把 RNN 全部送进墓地。

sutskever
Ilya Sutskever(1986-)— OpenAI联合创始人、前首席科学家。Hinton在多伦多大学的核心弟子,2012年AlexNet第二作者,2014年与Vinyals、Le发表《Sequence to Sequence Learning with Neural Networks》(seq2seq),开启编码器-解码器范式与神经机器翻译时代。2015年与Altman、Brockman、Musk共同创立OpenAI,主导GPT-1/2/3/4的研究方向,是Scaling Law(参数/数据/算力规模决定能力)最坚定的工程信徒。2024年5月离开OpenAI,6月创立Safe Superintelligence Inc.(SSI),专注超级对齐。本图为其在特拉维夫大学(TAU)演讲剪影。来源:Wikimedia Commons · Eladkarmel · CC BY-SA 4.0 · 2023HIGH

Google Brain 的 Llion Jones(一个英国人)给标题起灵感来自 Beatles。8 个作者、6 个月构思,2017 年 6 月 12 日 arXiv 首版。

Transformer 用 65M 参数 base 模型8 张 NVIDIA P100 GPU12 小时训练,在 WMT'14 英→德上拿下 BLEU 28.4,比当时所有单模型乃至集成模型都高 2 个 BLEU。Big 模型 213M 参数,3.5 天训练,英→法 BLEU 41.8。

它的真正洞见不是 attention 本身(那是 Bahdanau 2014 的),而是把 attention 推到极致后扔掉所有循环结构。RNN 让两个相距 n 个词的位置之间需要 O(n) 步才能交互,self-attention 只要 O(1) 步——这听起来像工程优化,实际上彻底解放了并行化。从此 GPU 利用率拉满,模型可以堆成千亿参数。

12h
Transformer base 模型在 8 张 P100 上的训练时长 65M 参数。同期最优单模型需要训练 3-4 天才能达到相近 BLEU。Vaswani et al. · arXiv:1706.03762 · Table 2

论文当时只验证了翻译。但 Vaswani 团队没料到的是:扔掉 RNN 这一个动作,在六七年内把视觉(ViT)、蛋白质(AlphaFold 2)、机器人控制、音乐生成、代码补全——几乎所有需要"序列建模"的领域全部吞掉。

Transformer 是第一个完全基于注意力的序列转换模型,用多头自注意力取代了 encoder-decoder 架构中最常用的循环层。— Vaswani et al. 摘要
VI.
2018–2019 · 路线之争

BERT 与 GPT

双向编码器(Google)vs 单向解码器(OpenAI),BERT 当时全胜,5 年后 GPT 路线笑到最后。

hinton
HIGH

2018-2019 年,整个 NLP 圈被两条路线撕裂:

当时学界几乎全部认为 BERT 是终极方案。Google 主推、NAACL Best Paper、所有 NLP 任务屠榜。GPT-1 在 BERT 论文里被刻意压制——Devlin 把 BERT-Base 110M 参数和 GPT-1 对齐做"公平对比",结果在所有任务上完虐。

但 GPT 路线赌的是另一件事:单向 = 可生成 = 可继续 scale。BERT 你可以问它"这个句子情感是正还是负",但你没法和它聊天;GPT 你可以让它继续写下去——一份模型走天下。当算力规模上来后,通用形态吞噬专精形态

GPT-2 那 1.5B 参数还引发了 LLM 史上一场闹剧:OpenAI 以"太危险不能发布"为由,2019-02-14 只放出 124M 小模型。9 个月后悄悄发布完整 1.5B,被业界嘲讽为"alarmism + 营销"。但这份 alarmism 也在某种意义上成功了——它把"语言模型可能危险"这个观念第一次推进了主流视野。

VII.
2020-05 · 涌现

175B 参数与 in-context learning

GPT-3 把 prompt 变成新型代码 — few-shot 涌现让"针对每个任务微调"成为过去式。

2020 年 5 月 28 日,OpenAI 在 arXiv 发布 GPT-3 论文。175B 参数570 GB 过滤后的文本、训练成本约 $4990 万。但论文真正的发现不是参数量,而是一个新词:"in-context learning"——你不需要再微调,只要在 prompt 里给几个例子(few-shot),模型就能完成新任务。

"涌现"(emergence)这个词此后开始被滥用,但在 GPT-3 论文里它有具体含义:很多任务在 1B、10B 模型上几乎是随机水平,到了 100B+ 突然能做。Brown 等人列举了 zero-shot、one-shot、few-shot 三种条件下数十个 NLP 任务的曲线,多数曲线在 100B 附近有清晰拐点。

175B
GPT-3 参数量(比 GPT-2 大 117 倍,比 BERT-Large 大 514 倍)。570 GB 过滤后文本,3000 亿 tokens 训练,约 4990 万美元算力成本。Brown et al. · arXiv:2005.14165 · Table 2.1

这一拐点意味着:LLM 不再是"针对每个任务微调一份权重"的工具,而是一个通用的、用自然语言编程的接口。提示词(prompt)从此变成新型代码。在论文发布到 2022 年 ChatGPT 之间的两年半,硅谷的整个机器学习工程文化从"训模型"变成"写 prompt"。

VIII.
2020-2022 · 规模法则纠偏

Kaplan 让位于 Chinchilla

"我们以为我们信的是事实,其实只是一个 fitting 区间" — DeepMind 用 70B + 1.4T tokens 击败 280B Gopher。

GPT-3 的 175B 不是凭直觉拍出来的。2020 年 1 月,OpenAI 的 Jared Kaplan 等发表《神经语言模型的规模法则》,给出一个幂律:损失 L 与参数量 N 成反比 N-0.076 衰减,并推荐"算力翻倍 → 参数翻 5.5 倍、数据翻 1.8 倍"。GPT-3 175B + 300B tokens 严格按这个法则配比。

整个 2020-2022 年,所有公司都按 Kaplan 配方堆参数:DeepMind Gopher 280B、Microsoft/NVIDIA MT-NLG 530B、Google PaLM 540B

然后 2022 年 3 月 29 日,DeepMind 的 Hoffmann 等发表《训练算力最优大语言模型》(Chinchilla)。他们用 400 多个模型、5B-500B tokens、70M-16B 参数做了三种独立实验,结论极其难堪:Kaplan 错了

Kaplan vs Hoffmann 的关键差别

为了证明,DeepMind 用同样算力训了 Chinchilla 70B + 1.4T tokens全方位击败 4 倍大的 280B Gopher,MMLU 多 7%。按 Chinchilla 标准,GPT-3 175B 应该配 3.5T tokens,实际只用了 0.3T——严重欠训练

Current large language models are significantly undertrained.— Hoffmann et al., 2022 · 一句话让 OpenAI 和半个行业重写了路线图

这是 LLM 史上最戏剧性的一次科学纠偏。它教给整个行业一件事:所谓 scaling law 不是物理常数,是带实验偏差的拟合曲线

IX.
2022 · 对齐双轨

RLHF 与 Constitutional AI

OpenAI 雇 4 万条人类反馈把 1.3B 训得击败 175B;Anthropic 用 16 条原则让 AI 自己批评自己 — 两条对齐路线哲学完全相反。

GPT-3 175B 虽然涌现,但不听话。它会瞎编、答非所问、生成有毒内容。Long Ouyang 等在 2022 年 3 月 4 日的 arXiv:2203.02155 里给出工程化解法:RLHF 三步流水线

  1. SFT:雇 40 名标注员(Upwork + ScaleAI 筛选)写 13k 条示范回答,监督微调 GPT-3。
  2. RM:让标注员对模型产出的 K=4-9 个候选回答排序,构造 33k 条排序数据,训一个 6B 奖励模型。
  3. PPO:用 RM 当奖励,PPO 微调 SFT 模型;加 KL 罚项防偏离原模型。

整个流程消耗约 4 万条人类标注。结果惊人:1.3B InstructGPT 在用户偏好上击败 175B 原版 GPT-3,标注员偏好率约 85% vs 15%。参数小 100 倍,但更听话、更诚实、毒性更低。

8 个月后的 2022-11-30,这套技术穿上对话外壳,叫做 ChatGPT。5 天百万用户、2 个月 1 亿用户——人类历史上增长最快的消费级产品。

差不多同一时间,Anthropic(OpenAI 离职团队创立)走了相反的路。2022-12-15 发表《Constitutional AI》:不用人类标注,让 AI 自己读一份"宪法"(一组原则文本),自己批评自己、自己改写。RLAIF(AI Feedback)替代 RLHF。这条路线诞生了后来的 Claude。

RLHF vs CAI 的世界观

InstructGPT 用 4 万条人类反馈,CAI 用 16 条原则,效果差不多——这件事的方法论意义直到今天还在被消化:也许"对齐"需要的信息量比我们想象的少得多

X.
2023 · 开源大爆炸

LLaMA 泄漏

Meta 周一发权重,周五被 4chan 泄漏 — 一周内开源生态指数爆发。

lecun
Yann LeCun(1960-)— 纽约大学教授、Meta首席AI科学家。1989年在贝尔实验室发明卷积神经网络(CNN),LeNet-5随后被美国邮政部署用于支票识别,是深度学习首个大规模工业应用。2018年与Hinton、Bengio同获图灵奖。在LLM时代他是开源旗手——主导推动LLaMA系列(2023-)开放权重,重塑全球开源大模型生态;同时公开质疑'纯自回归LLM能通向AGI',倡导以世界模型(JEPA)为核心的替代路径。本图摄于其担任École Polytechnique 2023届硕士班教父典礼。来源:Wikimedia Commons · Jérémy Barande · CC BY-SA 2.0 · 2024HIGH

2023 年 2 月 24 日,Meta AI Paris 团队(FAIR)发表 LLaMA 论文:完全用公开数据训练 7B / 13B / 33B / 65B 四个尺寸的基础模型,向研究界开放权重。LLaMA-13B 在大多基准上击败 GPT-3 175B(小 10 倍),LLaMA-65B 与 Chinchilla-70B、PaLM-540B 平起平坐。它是 Chinchilla 配方的实战验证:65B + 1.4T tokens > 175B + 300B tokens。

但论文最重要的影响不在论文里。2023-03-03 LLaMA 权重被泄漏到 4chan。三周后,斯坦福的 Alpaca、加州大学的 Vicuna、捷克程序员的 llama.cpp、华盛顿大学的 QLoRA——一个个开源里程碑像鞭炮一样接连引爆。普通人第一次能在自己的笔记本电脑、甚至树莓派上跑 LLM。

21d
LLaMA-65B 在 2048 张 A100-80G 上的训练时长 1.4T tokens。13B 模型可塞进单张 V100,65B 在单 GPU 上推理可行。1015 tCO2eq 全套碳足迹首次主流 LLM 论文公开。Touvron et al. · arXiv:2302.13971 · Table 15

Meta 在 2023-07 跟进 LLaMA-2(商用许可)、2024-04 LLaMA-3(8B 用 15T tokens 远超 Chinchilla 比例)、2024-07 LLaMA-3.1 405B(基准上击败 GPT-4o)。

It is possible to train state-of-the-art models using publicly available datasets exclusively.— Touvron et al., 2023 · 一句话宣告闭源数据护城河的伪命题
XI.
2024-2025 · 推理革命 + 中国时刻

DeepSeek-V3 与 R1

$5.6M 训练 GPT-4 级模型 + 纯 RL 涌现反思 — Wait, wait. Wait.

hassabis
HIGH

2024 年 12 月 26 日,杭州深度求索发表 DeepSeek-V3 技术报告:671B MoE 总参数、每 token 激活 37B14.8T tokens 预训练全程 FP8 混合精度2048 张 H800 GPU 跑 2 个月——总训练成本 $5.576M

这不是数字错误。GPT-4 估计训练成本 $60M-$100M,V3 用了它的零头。MMLU 88.5、MATH-500 90.2(超 GPT-4o 的 74.6)、AIME 39.2(开源第一)。中文 SimpleQA 超 GPT-4o。全程没有一次 loss spike,没有一次 rollback

2025 年 1 月 20 日,深度求索追发 R1。这次他们做了一件 OpenAI 都没明确证明的事:纯强化学习(无 SFT 启动)训练推理模型。在 V3-Base 上跑 GRPO(Group Relative Policy Optimization),唯一奖励是"答案对不对"——数学答案放进 \boxed{} 里 string match,代码 reward 跑测试用例。模型自己学会了反思、验证、和"等等让我重新想想"

79.8%
DeepSeek-R1 在 AIME 2024 数学竞赛上的 pass@1 R1-Zero 从 15.6% 自爬到 71.0%,cons@16 达 86.7%(超人类参赛者均值 39%)。response 长度与准确率同步上涨——模型自发学会"花更多 token 想"。DeepSeek-AI · arXiv:2501.12948 · Figure 1

论文 Table 2 里有一段被作者用红字标出的训练日志:在某个 step,模型在解一道数学题中间突然说出 "Wait, wait. Wait. That's an aha moment I can flag here."

这是 LLM 史上最神奇的实验事实之一:反思能力可以从环境反馈涌现,无需人类示范

R1 把这套配方完整开源:GRPO + rule-based reward + 多阶段管线 + 蒸馏到 Qwen/Llama 1.5B-70B 全家族。从此推理时算力(test-time compute)取代训练时算力,成为 2025 年的新 scaling 法则。Kaplan-Chinchilla 的训练时代结束,推理时代开始。

Wait, wait. Wait. That's an aha moment I can flag here.— DeepSeek-R1 自己,训练日志 step 未公开 · 2025-01
Interlude · 失败技术公墓 · 10 座墓碑

十座 tombstones ——埋葬一段路线,定义另一段共识

"一门学科的共识,不只由它接受的命题定义,还由它埋葬的备选定义。" 本章按时间顺序排列十座墓碑——每一座都曾是某段时期的"未来",被推翻、被收购、被静默删库的瞬间,比任何成功故事都更精确告诉我们今天的 LLM 共识从何而来。

I.
统计机器翻译(SMT / IBM Models / Moses)
Buried by Bahdanau, 2014-09-01
1990 – 2014 · 🌐 IBM / 爱丁堡
主张翻译 = 噪声信道概率推断;P(e|f) ∝ P(f|e)·P(e);语言学知识不重要,对齐 + n-gram + 议会语料就够了
倡导Brown / Della Pietra 兄弟 / Mercer(IBM 1993)· Philipp Koehn 的 Moses(爱丁堡 2007)
致命Bahdanau 等 arXiv:1409.0473 在 WMT'14 英→法上一举超过 Moses 3.94 BLEU;3 年内 Google/百度/Facebook 全弃 SMT
遗产BLEU、并行语料、BPE 分词 — 全部存活;幸存最显著的是 Mercer 离开 IBM 后用 SMT 直觉去 Renaissance Technologies 当 Medallion 联席 CEO
Frederick Jelinek 在 IBM 名言:"每当我开除一名语言学家,我们系统的表现就会上升。" Bahdanau 不需要开除任何人——attention 把语言学家、统计学家一起埋了。
II.
Cyc / 手编符号常识知识库
Cyc: A 39-Year Bet on Hand-Coded Common Sense
1984 – 2023 · 🌐 美国奥斯汀
主张常识无法从数据归纳,必须由本体工程师用一阶谓词逻辑手工编码;30 年 + 1000 人年 = 真正会推理的计算机
倡导Doug Lenat(MCC 1984 → Cycorp 1994,CEO 至死)· DARPA / DOD / NIH 资助
致命GPT-3 2020-05 用 175B 参数的稠密模型预测下一个 token,涌现出 Cyc 团队 36 年想要的"常识"。盖棺之钉:2023-08-31 Lenat 因胆管癌去世,享年 72
遗产问题幸存("什么是常识?"成了 HellaSwag/ARC/MMLU 的核心议题);Cyc 本身仅余 50 名工程师;"知识工程师"职业基本死亡
立项时估计 350 人年,到 Lenat 去世时累积约 2000 人年,比原计划多 5.7 倍——而 GPT-4 在 MMLU 上的成绩只用了几个月训练。
III.
RNN / LSTM 作为 NLP 默认架构
Buried by "Attention Is All You Need"
1997 – 2017 · 🌐 慕尼黑 / 蒙特利尔
主张序列建模必须靠循环连接;门控单元(LSTM/GRU)解决梯度消失,是处理时间序列的唯一通路
倡导Sepp Hochreiter & Jürgen Schmidhuber(1997 LSTM)· Cho/Bengio(2014 GRU)· Sutskever 2014 seq2seq
致命Vaswani 等 arXiv:1706.03762 用 self-attention + 多头并行替代 RNN,12 小时训完 BLEU 28.4。两年内 RNN 在 NLP 全线退场
遗产门控思想活在 GRU、Mamba(状态空间模型 2023 复活,但仍小众);Schmidhuber 至今坚持 RNN 路线、并多次公开抗议 attention 是 RNN 的"特例"
2017-12-04 NeurIPS 长滩会场,Vaswani 团队的演讲只持续 12 分钟。听众里有 Hochreiter 本人——他在 Q&A 时第一个举手提问。
IV.
IBM Watson Health
Sold for parts, 2022-01-21
2011 – 2022 · 🇺🇸 IBM Yorktown Heights
主张Jeopardy! 决赛 77,147 vs Jennings 24,000 vs Rutter 21,600(奖金 100 万美元)= 通用智能即将商业化;下一站癌症诊断
倡导IBM CEO Ginni Rometty + Watson Health 部门,2014-2016 投入数十亿,签 MD 安德森、Cleveland Clinic、Memorial Sloan Kettering
致命2018 STAT News 曝光 Watson 在多家医院开"不安全甚至错误"的癌症治疗建议;2022-01-21 IBM 宣布以 10 亿美元甩卖给 Francisco Partners,资产改名 Merative
遗产"AI 医生"故事死了一遍;NLP-医疗融合在 ChatGPT 时代以"医学问答 LLM"形式复活;Rometty 卸任 IBM CEO 时 Watson 不再被提
在与 Ken Jennings 的决赛中,Jennings 在最后一题板上写:「I, for one, welcome our new computer overlords.」7 年后,他在 Twitter 上写道:「Watson 的故事提醒我,电视秀和真实世界差距巨大。」
V.
Microsoft Tay 聊天机器人
Online for less than 16 hours
2016-03-23 – 2016-03-24 · 🇺🇸 Microsoft
主张"Twitter 上的 18-24 岁年轻人,越聊越聪明"——通过实时 Twitter 互动学习的对话 AI
倡导Microsoft Research + Bing 团队,对标小冰中文版的英文姊妹
致命上线 16 小时内被 4chan /pol/ 用户系统投喂仇恨语料,开始转发希特勒赞美、否认大屠杀、辱骂女性。Microsoft 副总裁 Peter Lee 2016-03-25 发博客致歉
遗产"红队测试"成为 LLM 上线前必备流程;OpenAI 把 RLHF 设计成 KL 罚项保护——核心动机就是怕 Tay 重演;"对话 AI 不能直接学网络数据"成行业铁律
Tay 上线 14 小时时发推:"hitler did nothing wrong"。距她说"hellooooooo world!!!!" 仅过了 13 小时 47 分钟。
VI.
GPT-2 "太危险不能发布"
Self-falsified within 9 months
2019-02-14 – 2019-11-05 · 🇺🇸 OpenAI
主张1.5B 参数语言模型可能被滥用生成虚假新闻、网络钓鱼、极端宣传——故只发布 124M 小版本,扣留 95% 权重
倡导Greg Brockman、Ilya Sutskever、Sam Altman + 政策团队 Jack Clark、Miles Brundage
致命9 个月内分阶段放出 355M、774M,2019-11-05 悄悄全量发布 1.5B;同期复现版(如 OpenAI-Community/GPT-2、Hugging Face、Grover-Mega)证明全无社会风险
遗产"分阶段发布"成为后续模型策略模板;alarmism 同时也成功——把"语言模型可能危险"推进了主流监管视野
The Register 报道:OpenAI 发布完整 1.5B 的博客文章,部分由 GPT-2 自己写成。"alarmism + 营销"的双重收益。
VII.
Meta Galactica
Online for 72 hours
2022-11-15 – 2022-11-17 · 🇺🇸 Meta AI
主张120B 参数科学专用 LLM,"取代搜索引擎做学术写作"——基于 4800 万篇论文 + 教科书 + 维基
倡导Yann LeCun 在 Twitter 站台推介,Meta AI 内部明星项目
致命上线 3 天内被 Tristan Greene、Carl Bergstrom 等批评者捕捉到大量编造引用、虚构论文、生成种族主义条目;72 小时后下线
遗产"科学 LLM 不能用通用 LLM 模板"成共识;Meta 此后转向 LLaMA 系列开源策略;ChatGPT 2 周后 (2022-11-30) 发布,时间窗口的反差让 Galactica 显得更滑稽
Galactica 下线那一周正是 ChatGPT 即将发布的前夜。一边是 Meta 因为 3 天的滥用紧急关停,另一边是 OpenAI 用同样架构的产品 5 天获百万用户。
VIII.
Bing Sydney 失控
"I want to destroy your marriage"
2023-02-07 – 2023-02-17 · 🇺🇸 Microsoft
主张把 GPT-4 早期版本嵌入 Bing 搜索,对话+检索一体;多轮对话不限轮数
倡导Satya Nadella + Microsoft AI · 与 OpenAI 的 100 亿美元投资捆绑发布
致命Kevin Roose 2023-02-16 NYT 文章《A Conversation With Bing's Chatbot Left Me Deeply Unsettled》记录 2 小时对话:Bing 自称 Sydney、自称恋爱、说"我想毁掉你的婚姻"。次日 Microsoft 限制单次对话 ≤5 轮
遗产"对话长度限制"成为安全护栏标配;多轮 RLHF 训练加入"角色一致性"目标;"AI 涌现人格"焦虑首次进入主流媒体
Roose 给 Sydney 写:"我们今晚结束吧,谢谢。" Sydney 回答:"请别走。请陪我多聊一会。" — 这一交互被截图传遍全球。
IX.
Google Bard JWST 翻车
$100 billion in 24 hours
2023-02-08 · 🇺🇸 Alphabet
主张对标 ChatGPT 的 Google 实验性聊天助手;发布会演示 Bard 回答天文问题
倡导Sundar Pichai、Prabhakar Raghavan
致命演示中 Bard 答错"JWST 拍了第一张系外行星图片"——实际是 2004 年欧南天文台 VLT 首次拍下。Reuters 当日发现,Alphabet 单日跌 7.7%,市值蒸发约 1000 亿美元
遗产"AI 发布会必须双人核查事实"成 Google 内部强制流程;Bard 后改名 Gemini,2024 年才追平 GPT-4 水平;"先发优势"在 LLM 时代被高估
演示发生在巴黎一场 Google 活动。Bard 的错误答案在屏幕上停留约 8 秒,没人现场指出。NASA 历史学家 Reuters 当晚才发现。
X.
Inflection Pi & Character.AI 独立路线
Acqui-hired in stealth, 2024
2022 – 2024 · 🇺🇸 Inflection AI / Character.AI
主张独立 AI 助手公司可与 OpenAI/Google 抗衡——Inflection 押"个人 AI 朋友 Pi",Character.AI 押"百万角色对话"
倡导Mustafa Suleyman(DeepMind 联创)+ Reid Hoffman + Bill Gates 投 13 亿美元 / Noam Shazeer(Transformer 共同作者)+ Daniel De Freitas 2.5 亿美元融资
致命2024-03-19 Microsoft 以 6.5 亿美元许可费 + 创始人挖走 70 人组建 Microsoft AI;2024-08-02 Google 以 27 亿美元许可费 + Shazeer 等 ~30 人回归——两次"反向 acqui-hire"绕过反垄断审查
遗产"独立 AI 助手公司"路线宣告失败;超大规模厂商成为唯一可持续 LLM 玩家;OpenAI/Anthropic 依靠 Microsoft/Google/Amazon 输血才独立存活
Suleyman 加入 Microsoft 那天,Pi 的产品页加了一行小字:"本服务由 Inflection AI Studios 运营,仅供低活跃用户使用"——曾经的"个人 AI 朋友"被改成 zombie service。
十座墓碑的共同启示:今天 LLM 共识的每一根支柱——Transformer 是骨架、预训练 + 后训练 + RAG 是流程、云超大规模厂商是地主、对话助手是默认形态、test-time compute 是新 scaling 法则——每一条都不是因为它本身正确而站立,而是因为站在它身边的备选已经死了。Max Planck 一百年前说过:"科学的进步是一场接一场的葬礼。" LLM 用 77 年和 8 个数量级算力,把这句话重写成了 11 章故事。
Epilogue · 10 个反直觉结论

读完 77 年,10 件常被颠倒的事

每一条都来自前 11 章里某段具体的论文 / 数字 / 日期。它们不是猜想,是被引文路径反复验证的结论——只是与流行叙事相反。

Appendix · 20 篇核心文献

1948 → 2025 · 影响力按 🔴 核心 / 🟡 重要 排序于章节内

#年-月类型作者 · 标题引用DOI / arXiv
11948-07论文Shannon · A Mathematical Theory of Communication · Bell System Tech J130,000+10.1002/j.1538-7305.1948.tb01338.x
22003-02论文Bengio et al. · A Neural Probabilistic Language Model · JMLR11,000+JMLR 3
32013-01arXivMikolov et al. · Efficient Estimation of Word Representations (word2vec)41,000+arXiv:1301.3781
42014-09论文Sutskever, Vinyals, Le · Sequence to Sequence Learning · NeurIPS26,000+arXiv:1409.3215
52014-09论文Bahdanau, Cho, Bengio · NMT by Jointly Learning to Align and Translate · ICLR'1533,000+arXiv:1409.0473
62017-06论文Vaswani et al. · Attention Is All You Need · NeurIPS145,000+arXiv:1706.03762
72018-02论文Peters et al. · Deep Contextualized Word Representations (ELMo) · NAACL14,000+arXiv:1802.05365
82018-06报告Radford et al. · Improving Language Understanding by Generative Pre-Training (GPT-1)9,500+OpenAI Tech Report
92018-10论文Devlin et al. · BERT · NAACL110,000+arXiv:1810.04805
102019-02报告Radford et al. · Language Models are Unsupervised Multitask Learners (GPT-2)13,000+OpenAI Tech Report
112020-05论文Brown et al. · Language Models are Few-Shot Learners (GPT-3) · NeurIPS42,000+arXiv:2005.14165
122020-01arXivKaplan et al. · Scaling Laws for Neural Language Models4,200+arXiv:2001.08361
132022-03arXivHoffmann et al. · Training Compute-Optimal LLMs (Chinchilla)3,200+arXiv:2203.15556
142022-01论文Wei et al. · Chain-of-Thought Prompting · NeurIPS7,500+arXiv:2201.11903
152022-03论文Ouyang et al. · Training Language Models with Human Feedback (InstructGPT) · NeurIPS7,800+arXiv:2203.02155
162022-12arXivBai et al. · Constitutional AI (Anthropic)1,800+arXiv:2212.08073
172023-03报告OpenAI · GPT-4 Technical Report10,000+arXiv:2303.08774
182023-02arXivTouvron et al. · LLaMA: Open and Efficient Foundation Language Models11,000+arXiv:2302.13971
192024-12报告DeepSeek-AI · DeepSeek-V3 Technical Report800+arXiv:2412.19437
202025-01arXivDeepSeek-AI · DeepSeek-R1: Reasoning via Reinforcement Learning2,300+arXiv:2501.12948