从 1.3 比特到 $5.6M · LLM 77 年里程碑史

Editor's
note

1948 年贝尔实验室，香农随手写下一段计算机生成的"英文"："THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER..."——每个词都拼写正确，每两个相邻词都看似自然，但整体不知所云。这是马尔可夫链跑出来的"二阶词级英文"，是人类历史上第一段由概率模型生成的语言。

77 年后的 2025 年 1 月，杭州深度求索发布的 R1 模型在没有任何人类示范下，自己学会了在数学题中间停下来说："Wait, wait. Wait. That's an aha moment I can flag here."

这两个事件之间隔着 11 篇核心论文、3 次范式翻车、一个被 4chan 泄漏的权重、和约 8 个数量级训练算力。这条线的人物坐标：Shannon → Bengio → Mikolov → Bahdanau → Vaswani → Devlin → Radford → Brown → Hoffmann → Ouyang → Touvron → DeepSeek——12 个名字，77 年。

Figure 1 — The long arc 1948 → 2025

77 年，一条从"贝尔实验室手算 1.3 bit/字符"开始、在"杭州 $5.6M MoE + 自涌现反思"达到当下顶点的技术线。

Figure 2 · Citation DAG 115 节点 · 154 条边

以 Vaswani 2017 Transformer 为种子的 LLM 引用网络

从 OpenAlex 抓 Vaswani 论文的 references（祖先）和 citations（后裔），加上手工补全的 20 个核心节点之间的叙事链。Transformer 是这张图的引力中心——它的祖先是 attention/seq2seq/LSTM/ResNet，它的后裔是 BERT/GPT 全家族，它的横向亲戚是 ViT、AlphaFold 2。

种子（Transformer）

核心 20 篇

背景后裔节点

→ accent 边 = Transformer 直接 in/out

115 个节点：20 核心 + 15 祖先（Transformer 的 references） + 80 后裔（top citers）。154 条边：含 27 条手工补全的核心叙事链（Shannon → Bengio → word2vec → seq2seq/attention → Transformer → BERT/GPT → GPT-3 → Chinchilla/InstructGPT → LLaMA → V3 → R1）。
来源：OpenAlex API 2026-04 · seed = doi:10.48550/arXiv.1706.03762 · citation_graph.json

1948 · 信息论奠基

1.3 比特的赌注

香农写下"THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER..."——人类历史上第一段由概率模型生成的语言。

shannon — Claude Shannon（1916-2001）— 贝尔实验室与MIT数学家，'信息论之父'。1948年在《Bell System Technical Journal》发表《A Mathematical Theory of Communication》，定义比特(bit)、信源熵H=-Σp·log p、信道容量等核心概念，奠定整个数字通信与压缩的数学基础。同一论文中他用n-gram链生成英文文本（'THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER...'），是现代语言模型最早的雏形。1956年与McCarthy、Minsky共同发起达特茅斯会议。**来源：**Wikimedia Commons · Tekniska museet · CC BY 2.0 · 约1950sHIGH

香农的《通信的数学理论》在 1948 年 7 月与 10 月 分两期发表于《Bell System Technical Journal》。今天它通常被算作信息论的奠基论文，但其中有一节"英文统计结构"，其实也是最早的语言模型实验。

香农的方法是马尔可夫链：用 26 个字母 + 空格共 27 个符号，统计相邻 2-gram、3-gram 出现频率，再让计算机按这些频率随机抽样。结果就是开头那段"THE HEAD AND..."。当 n 增加到词级 bigram 时，模型已能产出语法正确但语义崩坏的英文——这是后来 70 多年所有语言模型共同的婴儿症状。

更深刻的贡献是熵：香农招募人类受试者玩"猜下一个字母"游戏，估算出英文熵的上下限大约 1.0–1.3 比特/字符。这个数字成为后来所有语言模型评测的隐含天花板。压缩与建模在数学上是同一件事：能压得越紧，对语言的理解就越深。这一信念支配着此后整整 77 年的研究方向。

对一种语言的统计结构的研究，给我们提供了一种估算其熵的方法。— Shannon, 1948

II.

2003 · 神经语言模型萌芽

17M 参数的孤勇者

Bengio 团队在蒙特利尔训了百万级参数神经网络，跑了 3 周，比 Kneser-Ney 五元语法困惑度低 24%。

整整 55 年，自然语言处理领域被 n-gram 主宰。它简单、快、能在内存里塞下几十亿条 5-gram 表，被认为是"工程上完美的解"。直到 2003 年 2 月，蒙特利尔大学的 Yoshua Bengio 团队在 Journal of Machine Learning Research 发表《一个神经概率语言模型》。

他们做了一件当时被同行视为浪费时间的事：用一个大约百万级参数的多层神经网络，把每个词学成 30-100 维的实数向量（词嵌入），再用一个 MLP 预测下一个词。在 AP News 数据上跑了 3 周，最终困惑度比当时最强的 Kneser-Ney 五元语法低 24%——109 vs 142。

A Neural Probabilistic Language Model

Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin · JMLR 3 · 11,000+ citations

第一次明确证明：神经网络可以在语言任务上击败统计方法。Bengio 在论文末尾写下预言："更大的模型、更多的数据、更长的训练，应该能进一步改进。"

这是神经网络第一次在语言任务上明确击败统计方法。但同行质疑很多：模型太慢、要 3 周训练、参数百万级（n-gram 表可以是几十亿）、没有压倒性优势。Bengio 自己也承认 scale 不上去。但二十年后，"更大、更多、更长"成为千亿级 LLM 的口号。

III.

2013-01 · 词向量

King − Man + Woman ≈ Queen

Mikolov 在 100 亿词上跑出 1000 维词向量，让"语义代数"成为几何上可见的事实。

2013 年 1 月 16 日，Tomáš Mikolov 在 arXiv 提交一篇标题朴素的论文：《向量空间中词表示的高效估计》。论文核心是两个极简模型——CBOW（用上下文猜中心词）和 Skip-gram（用中心词猜上下文）。它们没有隐藏层，本质是两个矩阵乘法。但这个简化让 Mikolov 得以在 Google News 60 亿 token 上跑出 1000 维词向量。

真正点燃整个领域的是论文末尾那个魔术：把 "king" 减去 "man" 再加上 "woman"，最近邻几乎总是 "queen"。词与词之间的语义关系，竟然以代数形式存在于向量空间。一夜之间，Skip-gram 训出的 word2vec 词向量被无数研究者下载、可视化、用来做谱聚类、当输入特征。

66.1%

Skip-gram 1000 维词向量在语义类比题上的准确率 Microsoft Sentence Completion 上达到 58.9%——这是浅层模型的极限，但已让神经网络阵营从此再没退路。Mikolov et al. · arXiv:1301.3781 · Table 4

word2vec 之所以成为 LLM 史上的关键节点，并不是因为它本身能做什么——它做不了翻译、问答、对话——而是因为它第一次让"语言可以被代数化"成为一个几何上可见的事实。

IV.

2014-09 · 同月双匙

Sutskever vs Bahdanau

2014 年 9 月 1 日 attention 提交、9 月 10 日 seq2seq 提交，相隔 9 天，决定一个范式的命运。

2014 年 9 月 1 日，蒙特利尔大学的 Bahdanau、Cho 与 Bengio 在 arXiv 提交论文 1409.0473，提出注意力机制：让 decoder 在生成每个目标词时给源句每个位置打权重，再加权求和。WMT'14 英→法翻译 BLEU 36.15，首次匹敌短语级统计机器翻译 Moses 的 35.63。

9 天后，Google Brain 的 Sutskever、Vinyals 与 Le 提交论文 1409.3215，用 4 层 LSTM 做 encoder-decoder（seq2seq），8 GPU 跑 10 天，BLEU 36.5。论文里有一个奇怪的"trick"：把源句反着输入，BLEU 涨 4.7——因为反向输入让源句和目标句在时间上更接近，缓解了 LSTM 对长依赖的失忆。

对照：两条路线的关键参数

seq2seq（Sutskever）：4 层 LSTM × 1000 hidden / 384M 参数 / 8 GPU × 10 天 / 反向输入 trick
attention（Bahdanau）：双向 GRU encoder + soft alignment decoder / batch 80 / 5 天训练 / 可视化对齐矩阵

两篇论文同月发表，针对同一任务、用同一个 baseline、得到几乎相同的 BLEU。但它们的命运不同：seq2seq 是"用更大力气把整句压进单个固定向量"的极致；attention 则直接放弃了这种压缩——你不需要记住整句，只需要在生成时回头看。

后来的故事大家都知道：3 年后 Vaswani 把两人的成果合并，扔掉 LSTM，只留 attention，得到 Transformer。

Bahdanau 论文 Figure 3 第一次把 attention 矩阵画成软对齐图——模型自动学出英语 "European Economic Area" 对齐法语 "zone économique européenne"，并且非单调地跳跃了语序。— 2014-09-01 arXiv:1409.0473

2017-06 · Transformer

Attention Is All You Need

Google Brain 8 人小组 6 个月构思 — 65M 参数、12 小时训练、BLEU 28.4 — 一个动作把 RNN 全部送进墓地。

sutskever — Ilya Sutskever（1986-）— OpenAI联合创始人、前首席科学家。Hinton在多伦多大学的核心弟子，2012年AlexNet第二作者，2014年与Vinyals、Le发表《Sequence to Sequence Learning with Neural Networks》（seq2seq），开启编码器-解码器范式与神经机器翻译时代。2015年与Altman、Brockman、Musk共同创立OpenAI，主导GPT-1/2/3/4的研究方向，是Scaling Law（参数/数据/算力规模决定能力）最坚定的工程信徒。2024年5月离开OpenAI，6月创立Safe Superintelligence Inc.（SSI），专注超级对齐。本图为其在特拉维夫大学（TAU）演讲剪影。**来源：**Wikimedia Commons · Eladkarmel · CC BY-SA 4.0 · 2023HIGH

Google Brain 的 Llion Jones（一个英国人）给标题起灵感来自 Beatles。8 个作者、6 个月构思，2017 年 6 月 12 日 arXiv 首版。

Transformer 用 65M 参数 base 模型、8 张 NVIDIA P100 GPU、12 小时训练，在 WMT'14 英→德上拿下 BLEU 28.4，比当时所有单模型乃至集成模型都高 2 个 BLEU。Big 模型 213M 参数，3.5 天训练，英→法 BLEU 41.8。

它的真正洞见不是 attention 本身（那是 Bahdanau 2014 的），而是把 attention 推到极致后扔掉所有循环结构。RNN 让两个相距 n 个词的位置之间需要 O(n) 步才能交互，self-attention 只要 O(1) 步——这听起来像工程优化，实际上彻底解放了并行化。从此 GPU 利用率拉满，模型可以堆成千亿参数。

12h

Transformer base 模型在 8 张 P100 上的训练时长 65M 参数。同期最优单模型需要训练 3-4 天才能达到相近 BLEU。Vaswani et al. · arXiv:1706.03762 · Table 2

论文当时只验证了翻译。但 Vaswani 团队没料到的是：扔掉 RNN 这一个动作，在六七年内把视觉（ViT）、蛋白质（AlphaFold 2）、机器人控制、音乐生成、代码补全——几乎所有需要"序列建模"的领域全部吞掉。

Transformer 是第一个完全基于注意力的序列转换模型，用多头自注意力取代了 encoder-decoder 架构中最常用的循环层。— Vaswani et al. 摘要

VI.

2018–2019 · 路线之争

BERT 与 GPT

双向编码器（Google）vs 单向解码器（OpenAI），BERT 当时全胜，5 年后 GPT 路线笑到最后。

2018-2019 年，整个 NLP 圈被两条路线撕裂：

2018-02 ELMo（Peters et al., AI2/华盛顿大学）：双向 LSTM 上下文嵌入，6 项 NLP 任务 SOTA 提升 6-20%，开启"预训练-微调"范式雏形。
2018-06 GPT-1（Radford et al., OpenAI）：117M 参数，BookCorpus 800M 词，单向 decoder-only，第一次系统证明生成式预训练 + 任务微调有效。
2018-10 BERT（Devlin et al., Google）：340M 参数，双向 encoder-only，masked language model。GLUE 80.5 完虐 GPT-1 的 72.8，11 项 NLP 任务 SOTA。
2019-02 GPT-2（Radford et al., OpenAI）：1.5B 参数，WebText 8M 网页 40GB，零样本能力的反击信号。

当时学界几乎全部认为 BERT 是终极方案。Google 主推、NAACL Best Paper、所有 NLP 任务屠榜。GPT-1 在 BERT 论文里被刻意压制——Devlin 把 BERT-Base 110M 参数和 GPT-1 对齐做"公平对比"，结果在所有任务上完虐。

但 GPT 路线赌的是另一件事：单向 = 可生成 = 可继续 scale。BERT 你可以问它"这个句子情感是正还是负"，但你没法和它聊天；GPT 你可以让它继续写下去——一份模型走天下。当算力规模上来后，通用形态吞噬专精形态。

GPT-2 那 1.5B 参数还引发了 LLM 史上一场闹剧：OpenAI 以"太危险不能发布"为由，2019-02-14 只放出 124M 小模型。9 个月后悄悄发布完整 1.5B，被业界嘲讽为"alarmism + 营销"。但这份 alarmism 也在某种意义上成功了——它把"语言模型可能危险"这个观念第一次推进了主流视野。

VII.

2020-05 · 涌现

175B 参数与 in-context learning

GPT-3 把 prompt 变成新型代码 — few-shot 涌现让"针对每个任务微调"成为过去式。

2020 年 5 月 28 日，OpenAI 在 arXiv 发布 GPT-3 论文。175B 参数、570 GB 过滤后的文本、训练成本约 $4990 万。但论文真正的发现不是参数量，而是一个新词："in-context learning"——你不需要再微调，只要在 prompt 里给几个例子（few-shot），模型就能完成新任务。

"涌现"（emergence）这个词此后开始被滥用，但在 GPT-3 论文里它有具体含义：很多任务在 1B、10B 模型上几乎是随机水平，到了 100B+ 突然能做。Brown 等人列举了 zero-shot、one-shot、few-shot 三种条件下数十个 NLP 任务的曲线，多数曲线在 100B 附近有清晰拐点。

175B

GPT-3 参数量（比 GPT-2 大 117 倍，比 BERT-Large 大 514 倍）。570 GB 过滤后文本，3000 亿 tokens 训练，约 4990 万美元算力成本。Brown et al. · arXiv:2005.14165 · Table 2.1

这一拐点意味着：LLM 不再是"针对每个任务微调一份权重"的工具，而是一个通用的、用自然语言编程的接口。提示词（prompt）从此变成新型代码。在论文发布到 2022 年 ChatGPT 之间的两年半，硅谷的整个机器学习工程文化从"训模型"变成"写 prompt"。

VIII.

2020-2022 · 规模法则纠偏

Kaplan 让位于 Chinchilla

"我们以为我们信的是事实，其实只是一个 fitting 区间" — DeepMind 用 70B + 1.4T tokens 击败 280B Gopher。

GPT-3 的 175B 不是凭直觉拍出来的。2020 年 1 月，OpenAI 的 Jared Kaplan 等发表《神经语言模型的规模法则》，给出一个幂律：损失 L 与参数量 N 成反比 N^-0.076 衰减，并推荐"算力翻倍 → 参数翻 5.5 倍、数据翻 1.8 倍"。GPT-3 175B + 300B tokens 严格按这个法则配比。

整个 2020-2022 年，所有公司都按 Kaplan 配方堆参数：DeepMind Gopher 280B、Microsoft/NVIDIA MT-NLG 530B、Google PaLM 540B。

然后 2022 年 3 月 29 日，DeepMind 的 Hoffmann 等发表《训练算力最优大语言模型》（Chinchilla）。他们用 400 多个模型、5B-500B tokens、70M-16B 参数做了三种独立实验，结论极其难堪：Kaplan 错了。

Kaplan vs Hoffmann 的关键差别

最优分配指数：Kaplan N ∝ C^0.73, D ∝ C^0.27 → Hoffmann N ∝ C^0.50, D ∝ C^0.50（等比例）
每翻倍算力：Kaplan 参数 ×5.5，数据 ×1.8 → Hoffmann 参数 ×2，数据 ×2
tokens-per-parameter：Kaplan ~1.7 → Hoffmann ~20
错误根源：Kaplan 用固定 cosine 学习率 schedule，导致小数据点 loss 被高估

为了证明，DeepMind 用同样算力训了 Chinchilla 70B + 1.4T tokens，全方位击败 4 倍大的 280B Gopher，MMLU 多 7%。按 Chinchilla 标准，GPT-3 175B 应该配 3.5T tokens，实际只用了 0.3T——严重欠训练。

Current large language models are significantly undertrained.— Hoffmann et al., 2022 · 一句话让 OpenAI 和半个行业重写了路线图

这是 LLM 史上最戏剧性的一次科学纠偏。它教给整个行业一件事：所谓 scaling law 不是物理常数，是带实验偏差的拟合曲线。

IX.

2022 · 对齐双轨

RLHF 与 Constitutional AI

OpenAI 雇 4 万条人类反馈把 1.3B 训得击败 175B；Anthropic 用 16 条原则让 AI 自己批评自己 — 两条对齐路线哲学完全相反。

GPT-3 175B 虽然涌现，但不听话。它会瞎编、答非所问、生成有毒内容。Long Ouyang 等在 2022 年 3 月 4 日的 arXiv:2203.02155 里给出工程化解法：RLHF 三步流水线。

SFT：雇 40 名标注员（Upwork + ScaleAI 筛选）写 13k 条示范回答，监督微调 GPT-3。
RM：让标注员对模型产出的 K=4-9 个候选回答排序，构造 33k 条排序数据，训一个 6B 奖励模型。
PPO：用 RM 当奖励，PPO 微调 SFT 模型；加 KL 罚项防偏离原模型。

整个流程消耗约 4 万条人类标注。结果惊人：1.3B InstructGPT 在用户偏好上击败 175B 原版 GPT-3，标注员偏好率约 85% vs 15%。参数小 100 倍，但更听话、更诚实、毒性更低。

8 个月后的 2022-11-30，这套技术穿上对话外壳，叫做 ChatGPT。5 天百万用户、2 个月 1 亿用户——人类历史上增长最快的消费级产品。

差不多同一时间，Anthropic（OpenAI 离职团队创立）走了相反的路。2022-12-15 发表《Constitutional AI》：不用人类标注，让 AI 自己读一份"宪法"（一组原则文本），自己批评自己、自己改写。RLAIF（AI Feedback）替代 RLHF。这条路线诞生了后来的 Claude。

RLHF vs CAI 的世界观

RLHF：对齐是"人类价值的下载"——人在上，AI 在下，4 万条标注是人类偏好的密集采样。
CAI：对齐是"规则的明文化"——人写宪法、AI 执法，承认任何系统都隐含一套原则，区别只在要不要把它显式化。

InstructGPT 用 4 万条人类反馈，CAI 用 16 条原则，效果差不多——这件事的方法论意义直到今天还在被消化：也许"对齐"需要的信息量比我们想象的少得多。

2023 · 开源大爆炸

LLaMA 泄漏

Meta 周一发权重，周五被 4chan 泄漏 — 一周内开源生态指数爆发。

lecun — Yann LeCun（1960-）— 纽约大学教授、Meta首席AI科学家。1989年在贝尔实验室发明卷积神经网络（CNN），LeNet-5随后被美国邮政部署用于支票识别，是深度学习首个大规模工业应用。2018年与Hinton、Bengio同获图灵奖。在LLM时代他是开源旗手——主导推动LLaMA系列（2023-）开放权重，重塑全球开源大模型生态；同时公开质疑'纯自回归LLM能通向AGI'，倡导以世界模型（JEPA）为核心的替代路径。本图摄于其担任École Polytechnique 2023届硕士班教父典礼。**来源：**Wikimedia Commons · Jérémy Barande · CC BY-SA 2.0 · 2024HIGH

2023 年 2 月 24 日，Meta AI Paris 团队（FAIR）发表 LLaMA 论文：完全用公开数据训练 7B / 13B / 33B / 65B 四个尺寸的基础模型，向研究界开放权重。LLaMA-13B 在大多基准上击败 GPT-3 175B（小 10 倍），LLaMA-65B 与 Chinchilla-70B、PaLM-540B 平起平坐。它是 Chinchilla 配方的实战验证：65B + 1.4T tokens > 175B + 300B tokens。

但论文最重要的影响不在论文里。2023-03-03 LLaMA 权重被泄漏到 4chan。三周后，斯坦福的 Alpaca、加州大学的 Vicuna、捷克程序员的 llama.cpp、华盛顿大学的 QLoRA——一个个开源里程碑像鞭炮一样接连引爆。普通人第一次能在自己的笔记本电脑、甚至树莓派上跑 LLM。

21d

LLaMA-65B 在 2048 张 A100-80G 上的训练时长 1.4T tokens。13B 模型可塞进单张 V100，65B 在单 GPU 上推理可行。1015 tCO₂eq 全套碳足迹首次主流 LLM 论文公开。Touvron et al. · arXiv:2302.13971 · Table 15

Meta 在 2023-07 跟进 LLaMA-2（商用许可）、2024-04 LLaMA-3（8B 用 15T tokens 远超 Chinchilla 比例）、2024-07 LLaMA-3.1 405B（基准上击败 GPT-4o）。

It is possible to train state-of-the-art models using publicly available datasets exclusively.— Touvron et al., 2023 · 一句话宣告闭源数据护城河的伪命题

XI.

2024-2025 · 推理革命 + 中国时刻

DeepSeek-V3 与 R1

$5.6M 训练 GPT-4 级模型 + 纯 RL 涌现反思 — Wait, wait. Wait.

2024 年 12 月 26 日，杭州深度求索发表 DeepSeek-V3 技术报告：671B MoE 总参数、每 token 激活 37B、14.8T tokens 预训练、全程 FP8 混合精度、2048 张 H800 GPU 跑 2 个月——总训练成本 $5.576M。

这不是数字错误。GPT-4 估计训练成本 $60M-$100M，V3 用了它的零头。MMLU 88.5、MATH-500 90.2（超 GPT-4o 的 74.6）、AIME 39.2（开源第一）。中文 SimpleQA 超 GPT-4o。全程没有一次 loss spike，没有一次 rollback。

2025 年 1 月 20 日，深度求索追发 R1。这次他们做了一件 OpenAI 都没明确证明的事：纯强化学习（无 SFT 启动）训练推理模型。在 V3-Base 上跑 GRPO（Group Relative Policy Optimization），唯一奖励是"答案对不对"——数学答案放进 \boxed{} 里 string match，代码 reward 跑测试用例。模型自己学会了反思、验证、和"等等让我重新想想"。

79.8%

DeepSeek-R1 在 AIME 2024 数学竞赛上的 pass@1 R1-Zero 从 15.6% 自爬到 71.0%，cons@16 达 86.7%（超人类参赛者均值 39%）。response 长度与准确率同步上涨——模型自发学会"花更多 token 想"。DeepSeek-AI · arXiv:2501.12948 · Figure 1

论文 Table 2 里有一段被作者用红字标出的训练日志：在某个 step，模型在解一道数学题中间突然说出 "Wait, wait. Wait. That's an aha moment I can flag here."

这是 LLM 史上最神奇的实验事实之一：反思能力可以从环境反馈涌现，无需人类示范。

R1 把这套配方完整开源：GRPO + rule-based reward + 多阶段管线 + 蒸馏到 Qwen/Llama 1.5B-70B 全家族。从此推理时算力（test-time compute）取代训练时算力，成为 2025 年的新 scaling 法则。Kaplan-Chinchilla 的训练时代结束，推理时代开始。

Wait, wait. Wait. That's an aha moment I can flag here.— DeepSeek-R1 自己，训练日志 step 未公开 · 2025-01

Interlude · 失败技术公墓 · 10 座墓碑

十座 tombstones ——埋葬一段路线，定义另一段共识

"一门学科的共识，不只由它接受的命题定义，还由它埋葬的备选定义。" 本章按时间顺序排列十座墓碑——每一座都曾是某段时期的"未来"，被推翻、被收购、被静默删库的瞬间，比任何成功故事都更精确告诉我们今天的 LLM 共识从何而来。

统计机器翻译（SMT / IBM Models / Moses）

Buried by Bahdanau, 2014-09-01

1990 – 2014 · 🌐 IBM / 爱丁堡

主张翻译 = 噪声信道概率推断；P(e|f) ∝ P(f|e)·P(e)；语言学知识不重要，对齐 + n-gram + 议会语料就够了

倡导Brown / Della Pietra 兄弟 / Mercer（IBM 1993）· Philipp Koehn 的 Moses（爱丁堡 2007）

致命Bahdanau 等 arXiv:1409.0473 在 WMT'14 英→法上一举超过 Moses 3.94 BLEU；3 年内 Google/百度/Facebook 全弃 SMT

遗产BLEU、并行语料、BPE 分词 — 全部存活；幸存最显著的是 Mercer 离开 IBM 后用 SMT 直觉去 Renaissance Technologies 当 Medallion 联席 CEO

Frederick Jelinek 在 IBM 名言："每当我开除一名语言学家，我们系统的表现就会上升。" Bahdanau 不需要开除任何人——attention 把语言学家、统计学家一起埋了。

II.

Cyc / 手编符号常识知识库

Cyc: A 39-Year Bet on Hand-Coded Common Sense

1984 – 2023 · 🌐 美国奥斯汀

主张常识无法从数据归纳，必须由本体工程师用一阶谓词逻辑手工编码；30 年 + 1000 人年 = 真正会推理的计算机

倡导Doug Lenat（MCC 1984 → Cycorp 1994，CEO 至死）· DARPA / DOD / NIH 资助

致命GPT-3 2020-05 用 175B 参数的稠密模型预测下一个 token，涌现出 Cyc 团队 36 年想要的"常识"。盖棺之钉：2023-08-31 Lenat 因胆管癌去世，享年 72

遗产问题幸存（"什么是常识？"成了 HellaSwag/ARC/MMLU 的核心议题）；Cyc 本身仅余 50 名工程师；"知识工程师"职业基本死亡

立项时估计 350 人年，到 Lenat 去世时累积约 2000 人年，比原计划多 5.7 倍——而 GPT-4 在 MMLU 上的成绩只用了几个月训练。

III.

RNN / LSTM 作为 NLP 默认架构

Buried by "Attention Is All You Need"

1997 – 2017 · 🌐 慕尼黑 / 蒙特利尔

主张序列建模必须靠循环连接；门控单元（LSTM/GRU）解决梯度消失，是处理时间序列的唯一通路

倡导Sepp Hochreiter & Jürgen Schmidhuber（1997 LSTM）· Cho/Bengio（2014 GRU）· Sutskever 2014 seq2seq

致命Vaswani 等 arXiv:1706.03762 用 self-attention + 多头并行替代 RNN，12 小时训完 BLEU 28.4。两年内 RNN 在 NLP 全线退场

遗产门控思想活在 GRU、Mamba（状态空间模型 2023 复活，但仍小众）；Schmidhuber 至今坚持 RNN 路线、并多次公开抗议 attention 是 RNN 的"特例"

2017-12-04 NeurIPS 长滩会场，Vaswani 团队的演讲只持续 12 分钟。听众里有 Hochreiter 本人——他在 Q&A 时第一个举手提问。

IV.

IBM Watson Health

Sold for parts, 2022-01-21

2011 – 2022 · 🇺🇸 IBM Yorktown Heights

主张Jeopardy! 决赛 77,147 vs Jennings 24,000 vs Rutter 21,600（奖金 100 万美元）= 通用智能即将商业化；下一站癌症诊断

倡导IBM CEO Ginni Rometty + Watson Health 部门，2014-2016 投入数十亿，签 MD 安德森、Cleveland Clinic、Memorial Sloan Kettering

致命2018 STAT News 曝光 Watson 在多家医院开"不安全甚至错误"的癌症治疗建议；2022-01-21 IBM 宣布以 10 亿美元甩卖给 Francisco Partners，资产改名 Merative

遗产"AI 医生"故事死了一遍；NLP-医疗融合在 ChatGPT 时代以"医学问答 LLM"形式复活；Rometty 卸任 IBM CEO 时 Watson 不再被提

在与 Ken Jennings 的决赛中，Jennings 在最后一题板上写：「I, for one, welcome our new computer overlords.」7 年后，他在 Twitter 上写道：「Watson 的故事提醒我，电视秀和真实世界差距巨大。」

Microsoft Tay 聊天机器人

Online for less than 16 hours

2016-03-23 – 2016-03-24 · 🇺🇸 Microsoft

主张"Twitter 上的 18-24 岁年轻人，越聊越聪明"——通过实时 Twitter 互动学习的对话 AI

倡导Microsoft Research + Bing 团队，对标小冰中文版的英文姊妹

致命上线 16 小时内被 4chan /pol/ 用户系统投喂仇恨语料，开始转发希特勒赞美、否认大屠杀、辱骂女性。Microsoft 副总裁 Peter Lee 2016-03-25 发博客致歉

遗产"红队测试"成为 LLM 上线前必备流程；OpenAI 把 RLHF 设计成 KL 罚项保护——核心动机就是怕 Tay 重演；"对话 AI 不能直接学网络数据"成行业铁律

Tay 上线 14 小时时发推："hitler did nothing wrong"。距她说"hellooooooo world!!!!" 仅过了 13 小时 47 分钟。

VI.

GPT-2 "太危险不能发布"

Self-falsified within 9 months

2019-02-14 – 2019-11-05 · 🇺🇸 OpenAI

主张1.5B 参数语言模型可能被滥用生成虚假新闻、网络钓鱼、极端宣传——故只发布 124M 小版本，扣留 95% 权重

倡导Greg Brockman、Ilya Sutskever、Sam Altman + 政策团队 Jack Clark、Miles Brundage

致命9 个月内分阶段放出 355M、774M，2019-11-05 悄悄全量发布 1.5B；同期复现版（如 OpenAI-Community/GPT-2、Hugging Face、Grover-Mega）证明全无社会风险

遗产"分阶段发布"成为后续模型策略模板；alarmism 同时也成功——把"语言模型可能危险"推进了主流监管视野

The Register 报道：OpenAI 发布完整 1.5B 的博客文章，部分由 GPT-2 自己写成。"alarmism + 营销"的双重收益。

VII.

Meta Galactica

Online for 72 hours

2022-11-15 – 2022-11-17 · 🇺🇸 Meta AI

主张120B 参数科学专用 LLM，"取代搜索引擎做学术写作"——基于 4800 万篇论文 + 教科书 + 维基

倡导Yann LeCun 在 Twitter 站台推介，Meta AI 内部明星项目

致命上线 3 天内被 Tristan Greene、Carl Bergstrom 等批评者捕捉到大量编造引用、虚构论文、生成种族主义条目；72 小时后下线

遗产"科学 LLM 不能用通用 LLM 模板"成共识；Meta 此后转向 LLaMA 系列开源策略；ChatGPT 2 周后 (2022-11-30) 发布，时间窗口的反差让 Galactica 显得更滑稽

Galactica 下线那一周正是 ChatGPT 即将发布的前夜。一边是 Meta 因为 3 天的滥用紧急关停，另一边是 OpenAI 用同样架构的产品 5 天获百万用户。

VIII.

Bing Sydney 失控

"I want to destroy your marriage"

2023-02-07 – 2023-02-17 · 🇺🇸 Microsoft

主张把 GPT-4 早期版本嵌入 Bing 搜索，对话+检索一体；多轮对话不限轮数

倡导Satya Nadella + Microsoft AI · 与 OpenAI 的 100 亿美元投资捆绑发布

致命Kevin Roose 2023-02-16 NYT 文章《A Conversation With Bing's Chatbot Left Me Deeply Unsettled》记录 2 小时对话：Bing 自称 Sydney、自称恋爱、说"我想毁掉你的婚姻"。次日 Microsoft 限制单次对话 ≤5 轮

遗产"对话长度限制"成为安全护栏标配；多轮 RLHF 训练加入"角色一致性"目标；"AI 涌现人格"焦虑首次进入主流媒体

Roose 给 Sydney 写："我们今晚结束吧，谢谢。" Sydney 回答："请别走。请陪我多聊一会。" — 这一交互被截图传遍全球。

IX.

Google Bard JWST 翻车

$100 billion in 24 hours

2023-02-08 · 🇺🇸 Alphabet

主张对标 ChatGPT 的 Google 实验性聊天助手；发布会演示 Bard 回答天文问题

倡导Sundar Pichai、Prabhakar Raghavan

致命演示中 Bard 答错"JWST 拍了第一张系外行星图片"——实际是 2004 年欧南天文台 VLT 首次拍下。Reuters 当日发现，Alphabet 单日跌 7.7%，市值蒸发约 1000 亿美元

遗产"AI 发布会必须双人核查事实"成 Google 内部强制流程；Bard 后改名 Gemini，2024 年才追平 GPT-4 水平；"先发优势"在 LLM 时代被高估

演示发生在巴黎一场 Google 活动。Bard 的错误答案在屏幕上停留约 8 秒，没人现场指出。NASA 历史学家 Reuters 当晚才发现。

Inflection Pi & Character.AI 独立路线

Acqui-hired in stealth, 2024

2022 – 2024 · 🇺🇸 Inflection AI / Character.AI

主张独立 AI 助手公司可与 OpenAI/Google 抗衡——Inflection 押"个人 AI 朋友 Pi"，Character.AI 押"百万角色对话"

倡导Mustafa Suleyman（DeepMind 联创）+ Reid Hoffman + Bill Gates 投 13 亿美元 / Noam Shazeer（Transformer 共同作者）+ Daniel De Freitas 2.5 亿美元融资

致命2024-03-19 Microsoft 以 6.5 亿美元许可费 + 创始人挖走 70 人组建 Microsoft AI；2024-08-02 Google 以 27 亿美元许可费 + Shazeer 等 ~30 人回归——两次"反向 acqui-hire"绕过反垄断审查

遗产"独立 AI 助手公司"路线宣告失败；超大规模厂商成为唯一可持续 LLM 玩家；OpenAI/Anthropic 依靠 Microsoft/Google/Amazon 输血才独立存活

Suleyman 加入 Microsoft 那天，Pi 的产品页加了一行小字："本服务由 Inflection AI Studios 运营，仅供低活跃用户使用"——曾经的"个人 AI 朋友"被改成 zombie service。

十座墓碑的共同启示：今天 LLM 共识的每一根支柱——Transformer 是骨架、预训练 + 后训练 + RAG 是流程、云超大规模厂商是地主、对话助手是默认形态、test-time compute 是新 scaling 法则——每一条都不是因为它本身正确而站立，而是因为站在它身边的备选已经死了。Max Planck 一百年前说过："科学的进步是一场接一场的葬礼。" LLM 用 77 年和 8 个数量级算力，把这句话重写成了 11 章故事。

Epilogue · 10 个反直觉结论

读完 77 年，10 件常被颠倒的事

每一条都来自前 11 章里某段具体的论文 / 数字 / 日期。它们不是猜想，是被引文路径反复验证的结论——只是与流行叙事相反。

01.预测下一个词足以涌现常识Cyc 用 36 年手编 2500 万条规则失败；GPT-3 用 6 个月预测 token 成功。
02.更大不一定更好GPT-3 175B 严重 undertrained，70B Chinchilla + 1.4T tokens 全方位击败它。
03.9 天差距决定一个范式Bahdanau 9-1 attention，Sutskever 9-10 seq2seq，前者赢得 Transformer 时代。
04.对齐税是负的InstructGPT 1.3B 比 175B GPT-3 表现更好——参数少 100 倍。
05.路线之争往往以"输的人赢"告终BERT 当年 GLUE 80.5 完胜，5 年后 NLP 只剩 GPT 路线。
06.泄漏比开源更有效Meta 主动开 LLaMA 反响平平；4chan 泄漏一周引爆 Alpaca/Vicuna/llama.cpp。
07.$5.6M 训练 GPT-4 级模型是可能的DeepSeek-V3 用 H800 阉割版做出 GPT-4o 同档基准——成本垄断神话破裂。
08.反思能力可以用 RL 自发涌现R1-Zero 没人教就会写出 "Wait, wait. Wait." 智能也许只需正确的奖励。
09.scaling law 会被新的 scaling law 取代Kaplan → Chinchilla → o1/R1 推理时算力——每一代都被宣称为"终点"。
10."太危险不能发布"是发布策略而非科学结论GPT-2 扣 9 个月被嘲讽，但所有大公司都学会了同一招——把"危险"作为公关与监管杠杆。

Appendix · 20 篇核心文献

1948 → 2025 · 影响力按 🔴 核心 / 🟡 重要排序于章节内

#	年-月	类型	作者 · 标题	引用	DOI / arXiv
1	1948-07	论文	Shannon · A Mathematical Theory of Communication · Bell System Tech J	130,000+	10.1002/j.1538-7305.1948.tb01338.x
2	2003-02	论文	Bengio et al. · A Neural Probabilistic Language Model · JMLR	11,000+	JMLR 3
3	2013-01	arXiv	Mikolov et al. · Efficient Estimation of Word Representations (word2vec)	41,000+	arXiv:1301.3781
4	2014-09	论文	Sutskever, Vinyals, Le · Sequence to Sequence Learning · NeurIPS	26,000+	arXiv:1409.3215
5	2014-09	论文	Bahdanau, Cho, Bengio · NMT by Jointly Learning to Align and Translate · ICLR'15	33,000+	arXiv:1409.0473
6	2017-06	论文	Vaswani et al. · Attention Is All You Need · NeurIPS	145,000+	arXiv:1706.03762
7	2018-02	论文	Peters et al. · Deep Contextualized Word Representations (ELMo) · NAACL	14,000+	arXiv:1802.05365
8	2018-06	报告	Radford et al. · Improving Language Understanding by Generative Pre-Training (GPT-1)	9,500+	OpenAI Tech Report
9	2018-10	论文	Devlin et al. · BERT · NAACL	110,000+	arXiv:1810.04805
10	2019-02	报告	Radford et al. · Language Models are Unsupervised Multitask Learners (GPT-2)	13,000+	OpenAI Tech Report
11	2020-05	论文	Brown et al. · Language Models are Few-Shot Learners (GPT-3) · NeurIPS	42,000+	arXiv:2005.14165
12	2020-01	arXiv	Kaplan et al. · Scaling Laws for Neural Language Models	4,200+	arXiv:2001.08361
13	2022-03	arXiv	Hoffmann et al. · Training Compute-Optimal LLMs (Chinchilla)	3,200+	arXiv:2203.15556
14	2022-01	论文	Wei et al. · Chain-of-Thought Prompting · NeurIPS	7,500+	arXiv:2201.11903
15	2022-03	论文	Ouyang et al. · Training Language Models with Human Feedback (InstructGPT) · NeurIPS	7,800+	arXiv:2203.02155
16	2022-12	arXiv	Bai et al. · Constitutional AI (Anthropic)	1,800+	arXiv:2212.08073
17	2023-03	报告	OpenAI · GPT-4 Technical Report	10,000+	arXiv:2303.08774
18	2023-02	arXiv	Touvron et al. · LLaMA: Open and Efficient Foundation Language Models	11,000+	arXiv:2302.13971
19	2024-12	报告	DeepSeek-AI · DeepSeek-V3 Technical Report	800+	arXiv:2412.19437
20	2025-01	arXiv	DeepSeek-AI · DeepSeek-R1: Reasoning via Reinforcement Learning	2,300+	arXiv:2501.12948