基因组测序四十八年 · 从 Sanger 一个人读 50 个碱基到 HPRC 47 人泛基因组

1975 — 1986 · Sanger Era

Sanger 的奠基

一位两次获诺贝尔奖的剑桥贵格会教徒 · 双脱氧 vs 化学降解两条路线同年发表 · Mullis 开车时想出 PCR · Hood 把测序送进工厂——11 年从"能读 50 bp"到"电脑自动读峰"。

一九八〇年 12 月，剑桥大学分子生物学实验室（LMB）。65 岁的 Frederick Sanger 收到斯德哥尔摩的电话——他再次获得诺贝尔化学奖。这一次是因为 DNA 测序。

在他之前和之后，只有四个人两次获得诺贝尔奖：居里夫人（1903 物理、1911 化学）、鲍林（1954 化学、1962 和平）、巴丁（1956 电子管+1972 超导）、以及 Sanger——1958 因蛋白质测序（胰岛素）获化学奖，1980 因 DNA 测序再获化学奖。

人们问我为什么成功——我从不放弃一个有意思的问题。 — Frederick Sanger (1918-2013)

1975：plus-minus 法——第一个可用的 DNA 测序

1975 年 Sanger 和 Alan Coulson 在 J. Mol. Biol. 发表了一个笨拙但聪明的方法——用 DNA 聚合酶合成新链，再用两套相反的条件（plus / minus 反应）互相校对，读出 ~50-80 个碱基。但它的概念突破在于：用"新合成"而不是"切现成的 DNA"来读序列——这成了后来所有测序方法的祖先。

1977：两条路线同年发表，共享 1980 Nobel

1977 年是 DNA 测序的分叉点。两篇论文几乎同期问世：

Sanger, Nicklen, Coulson · Dideoxy Chain Termination

PNAS · Vol. 74 · 5463 · 10.1073/pnas.74.12.5463

核心想法：合成 DNA 时混入少量"缺了 3'-OH"的双脱氧核苷酸 ddNTP——一旦聚合酶把它接进去，链就再也长不下去。四管反应分别只放一种 ddNTP，得到四组不同长度的片段。聚丙烯酰胺凝胶电泳分开读出——读长 ~200-500 bp。

Maxam, Gilbert · Chemical Sequencing

PNAS · Vol. 74 · 560 · 10.1073/pnas.74.2.560

完全不同的思路：给 DNA 加放射性标记，用不同化学试剂（DMS / 肼等，对应 G / A+G / C+T / C 四个切割反应）分别切割特定碱基，再电泳读出。需要大量 DNA 起始量 + 危险化学试剂——1990 年代几乎消失。

Sanger 双脱氧链终止法 · 工作原理

FIG. 2 — How dideoxy sequencing reads bases

Sanger 双脱氧链终止法的精髓——用四管独立反应，每管只加一种双脱氧核苷酸（ddA/ddC/ddG/ddT）。DNA 聚合酶正常合成，但一旦随机接到 ddNTP 就停止（因为它 3'端缺 OH，接不上下一个核苷酸）。于是每管产生一堆长度不同的片段，但所有片段都在同一种碱基处终止。四管分别跑凝胶电泳，按片段大小分开——从最短（底部）到最长（顶部）依次读出，就是新合成 DNA 的序列。1986 年 Hood 把四个 ddNTP 各标一种荧光染料合并到一管，加上 CCD 相机——自动化测序诞生。
来源：Sanger, Nicklen, Coulson 1977 PNAS 74:5463 · 示意图改编自 Molecular Biology of the Gene 7th ed. · 图中序列为说明用例，非真实数据

两种方法分享 1980 Nobel 化学奖（与 Paul Berg 共享，后者因重组 DNA 研究）。历史给出了不同的命运：Sanger 法能自动化（1986 Hood 实现），Maxam-Gilbert 不能——到 1990 年代，Maxam 方法几乎消失。

1985：Mullis 开车时想出 PCR

1983 年 5 月的一个晚上，加州 Mendocino 高速公路上，Kary Mullis 开着车，脑子里闪过一个想法：用两条引物分别对应 DNA 双链的两端，循环变性-退火-延伸——指数扩增。1985 年这个想法在 Science 发表，作者列表里 Mullis 不是第一作者（是 Saiki）。但 1993 年他拿到了 Nobel 化学奖（和 Michael Smith 共享）——因为核心想法是他一个人的。Mullis 后来变得相当古怪（相信占星术、HIV 否认论者），但这不影响 PCR 成为整个生物学实验室最基本的工具。

1986：Leroy Hood 把测序送进工厂

加州理工的 Leroy Hood 和 Michael Hunkapiller 团队在 Nature 发表第一台自动化 DNA 测序仪原型——把 Sanger 法的 4 种 ddNTP 各标一种不同颜色的荧光染料，四管反应合并成一管，激光扫描，电脑直接读峰。

这是质的跃迁：从"人看 X 光片上的条带"到"电脑读峰"。Hood 后来把这个技术授权给 Applied Biosystems（ABI），ABI 最终成为人类基因组计划的主力仪器供应商。没有 Hood 1986 的自动化，1990 年启动的 HGP 是不可想象的。

1995 — 2003 · HGP vs Celera

人类基因组竞赛

Fleischmann 1995 首个完整基因组 · Venter 1998 Celera 宣战 · 白宫握手 2000.06.26 · 同日发表 2001.02.15/16——史上最著名科研竞赛以公立私立并列告终。

一九九五年 7 月 28 日，Science 刊出 Robert Fleischmann、Craig Venter 等的论文——流感嗜血杆菌（Haemophilus influenzae）完整基因组，1,830,137 bp，1,743 个基因。这是人类第一次完整读出一个自由生活生物的全部遗传信息。

关键是方法——"鸟枪法"（whole-genome shotgun）。Venter 不做物理图谱，直接把基因组随机剪成 2-3 kb 的小片段、分别测序、再用计算机算法拼回。当时 HGP 的主流策略是更保守的 BAC-by-BAC（克隆逐段法）。Fleischmann 1995 证明了鸟枪法对中等基因组可行——这让 Venter 敢于在 3 年后宣布用鸟枪法做人类基因组。

1998：Celera Genomics 宣战

1998 年 5 月 11 日，Craig Venter 联合 Perkin-Elmer 公司成立 Celera Genomics。Science 同日刊出 Venter 等人的论文——宣布用鸟枪法 3 年 3 亿美元做完人类基因组。

这对公立 Human Genome Project（HGP，1990 年由美国国立卫生研究院 NIH 和能源部 DOE 启动）是一次震动。HGP 计划是 15 年 30 亿美元，当时刚做到 3%。Venter 提议：Celera 3 年超前完成、数据库收费订阅、公开序列但附加商业限制。

HGP 由 Francis Collins（NIH）、Eric Lander（MIT/Broad）、John Sulston（Sanger Centre 英国）领导。他们的回应：加速，不放弃。英国 Wellcome Trust 追加 3.5 亿英镑资助 Sanger Centre。两边开始军备竞赛——谁的测序仪更多、谁的算法更强、谁的序列先发表。

2000 年 6 月 26 日：白宫握手

克林顿总统出面调停。2000 年 6 月 26 日，白宫椭圆办公厅，Collins 和 Venter 一起出席记者会，宣布"两边都完成了人类基因组草图"——各自 90% 覆盖。英国首相 Blair 通过屏幕加入。这是典型的政治解决——双方宣布并列胜利。

今天我们共同学习着造物主创造生命时所用的语言。 — Bill Clinton, 2000.06.26 白宫记者会

2001.02.15/16：同日发表

HGP vs Celera · 两种策略对比

FIG. 3 — Two strategies, one genome

两边看似都胜——HGP 守住公共遗产原则，Celera 证明私立可行。但长期看 HGP 的"开放数据"模型最终胜出：Celera 的数据库生意 2005 年破产，所有数据被迫上传 GenBank 成为公共资源。
来源：IHGSC 2001 Nature 409:860 · Venter 2001 Science 291:1304 · Francis Collins 自传 *The Language of God* · Craig Venter 自传 *A Life Decoded* · NHGRI 公开资料

最震撼的发现：人类只有 ~20,000 个基因

2001 年两篇论文都给出了同一个令人震惊的数字——人类只有约 20,000-25,000 个蛋白编码基因，比果蝇（14,000）多不了多少。这颠覆了此前 "人类有 10 万基因" 的预期，宣告"基因决定论"过于简单。从此表观遗传学、非编码 RNA、调控网络研究开始崛起。

人类基因数量 · 1990 预测 vs 2024 共识

FIG. 4 — "100,000 genes" was wrong by 5×

1990 年 HGP 启动时，基因组学家预测人类有 10 万个基因——五倍于实际值。2001 年草图发表时估为 30,000-35,000；2003 年完成图下修到 22,000；2024 年 GENCODE v45 的共识是 约 19,900 个蛋白编码基因——比线虫（19,700）多不了多少，比玉米（32,000）还少。基因数与物种复杂度的关系并非单调——这催生了表观遗传学、非编码 RNA、基因调控网络等新领域。
来源：Watson 1990 Science 248:44（HGP 启动时预测）· IHGSC 2001 Nature 409:860 · Finishing HGP 2004 Nature 431:931 · GENCODE v45 (2024.01) · Ensembl 统计

2003 年 HGP "完成图"（finished sequence）发布——99% 覆盖，精度 99.99%。但异染色质区域（着丝粒、端粒、rDNA）约占基因组 8%，一直没解决。直到 2022 年的 T2T 才补完。

III

2005 — 2012 · NGS Arms Race

NGS 军备竞赛

454 焦磷酸 · Illumina 桥式 PCR · PacBio 单分子实时 · Complete Genomics 纳米球 · Ion Torrent 半导体——10 年 4 种化学路线厮杀，最后 Illumina 赢了。为什么？

二〇〇五年 Sanger 法 + ABI 仪器到了极限——一台 3730xl 一天跑 96 个样本 × 800 bp。要再降本只能换范式。NGS 开始了。

2005：454 开场

Jonathan Rothberg 创办的 454 Life Sciences 在 Nature 发表第一个 NGS 平台。原理：DNA 珠子放在微井里（picoliter 反应器），每次加一种碱基，如果合成就释放焦磷酸 → 光信号。CCD 相机一次拍 40 万个井。读长 ~100 bp、通量 20 Mb/run——比 Sanger 便宜 50 倍。

2007 年 454 测完 James Watson（DNA 双螺旋发现者）的基因组，费用 150 万美元——第一个 NGS 个人基因组（Wheeler 2008 *Nature*）。

2008：Solexa/Illumina 的桥式 PCR 革命

英国剑桥的 Solexa 公司用了完全不同的化学：桥式扩增（bridge amplification）+ 可逆终止子（reversible terminator）。DNA 模板在玻璃芯片上形成几百万个簇，每个簇里约 1000 个 DNA 分子同时测序。每轮加 4 种带不同荧光的可逆终止核苷酸——拍照，洗掉，下一轮。

2007 年 Illumina 用 6 亿美元收购 Solexa——这是生物技术史上最划算的收购之一。2008 年 *Nature* 刊出 David Bentley 等人的论文——第一个 Illumina 平台人类基因组，覆盖 30×，成本数十万美元。

NGS 四大平台原理对比（2005-2012）

FIG. 5 — Four platforms, four chemistries

Illumina 赢的四大原因：①化学最经济（一轮一色一拍）；②读长 150 bp 够用；③桥式扩增可规模化（HiSeq→NovaSeq 单机通量 10 年涨 100 倍）；④平台生态最完整（文库到云分析全栈）。最终结局：454 于 2013 年被 Roche 关停、Complete Genomics 2013 年被 BGI 收购、SOLiD 2015 年停产——NGS 市场 Illumina 独占 80%+ 份额至今。
来源：Margulies 2005 Nature 437:376 · Bentley 2008 Nature 456:53 · Eid 2009 Science 323:133 · Drmanac 2010 Science 327:78 · Rothberg 2011 Nature 475:348 · Goodwin 2016 Nat Rev Genet 综述

2009 PacBio · 2012 Ion Torrent

PacBio SMRT 走了完全不同的路——零模波导（ZMW）+ 单聚合酶实时观测。一个直径 ~70 nm 的小孔（比光波长还小）只能放一个聚合酶分子，每加一个带荧光的核苷酸就闪一下光——相机实时记录。读长远超 NGS（2009 年 1,000 bp，2019 年 HiFi 平均 13.5 kb），但早期错误率高达 13%。

Ion Torrent（Rothberg 第二次创业）2012 年在 *Nature* 发表半导体测序——不用光学，让 DNA 合成释放的 H⁺ 离子直接改变芯片 pH，CMOS 传感器读电信号。仪器便宜、快、耗材贵。2014 年被 Thermo Fisher 收购，在临床小 panel 场景活下来，但没撼动 Illumina。

2007 — 2015 · The $1000 Genome

比 Moore 定律快 3 倍的降本曲线

2007 年 James Watson 的 NGS 基因组 $150 万——2015 年 Illumina HiSeq X Ten 达成 $1000——2023 年 Ultima UG100 达成 $100——8 年 1500 倍、16 年 15000 倍降本。

测序成本从 2001 HGP 的 $30 亿美元开始，以比 Moore 定律快 3 倍的速度下降。这是生物技术史上最陡峭的技术降本曲线，没有之一。

15,000×

COST REDUCTION · 2007 → 2023

从 $150 万（Watson 2007）到 $100（Ultima 2023） 同样的人类基因组测序，16 年时间成本降到 1/15,000。这个降本速度是 Moore 定律（18 个月翻倍）的约 3 倍——因为每一代 NGS 仪器不仅提升单次通量，还降低化学试剂成本，双重叠加。 NHGRI DNA Sequencing Costs 官方数据 · GenomeWeb 2023 Ultima Genomics 公告

成本曲线的关键里程碑

人类基因组测序成本演进 · 2001-2024 · 对数坐标

FIG. 6 — Faster than Moore's Law

2001 HGP 完成时一个基因组成本 $30 亿美元。8 年后（2007）降到 $150 万。又 8 年（2015）降到 $1000。再 8 年（2023）降到 $100——降本速度比 Moore 定律快 3 倍，因为每一代 NGS 仪器不仅提升单次通量，还降低化学试剂成本，双重叠加。橙色虚线是 Moore 定律（18 个月翻倍）的参考线——测序降本明显更陡。
来源：NHGRI DNA Sequencing Costs 官方数据集 · NovaSeq 6000 2020 Q4 季报 · Ultima Genomics 2023 UG100 发布会 · Nature 综合报道

2015：$1000 基因组达成

2015 年 1 月，Illumina 在 JPMorgan 医疗大会发布 HiSeq X Ten 系统——10 台机器组成一组，单组一年产 18,000 个人类基因组，单个基因组测序成本降到 $1000 以下。

这是生命科学史上的一个神话级里程碑——十多年前"第一个人类基因组 30 亿美元"，现在已经便宜到：一个普通家庭都可以考虑给新生儿全基因组测序。

$1000 基因组不是终点，是新时代的起点——从"谁能做得起"变成"谁会从中获益"。 — Illumina CEO Francis deSouza, 2015

2018 — 2023 · Complete + Pangenome

USB 测序仪 · T2T · 泛基因组

Oxford Nanopore MinION 被背进埃博拉疫区 · PacBio HiFi 把长读和高精度合一 · 2022 T2T-CHM13 首次真正完整人基因组 · 2023 HPRC 走出"一个欧洲男人"。

Illumina + PacBio 2015 年的组合很强大，但还有三个硬伤：①短读长（Illumina 150 bp）：重复序列区不能精确组装 ②长读早期错误率高 ③单一参考基因组 GRCh38：70% 来自一个欧洲男子的 DNA。

2018：Oxford Nanopore MinION——USB 测序仪

英国 Oxford Nanopore Technologies（ONT） 的 MinION 是一个 USB 大小的测序仪——插进笔记本电脑就能用。核心技术：蛋白纳米孔（α-溶血素或 MspA）嵌在膜上，DNA 单链像穿面条一样从孔里穿过，每个碱基经过时改变离子电流，电流波形对应碱基序列。

Jain, Olsen, Loose et al. · Nanopore sequencing and assembly of a human genome

Nat Biotech · Vol. 36 · 338 · 10.1038/nbt.4060

用 39 个 flow cell 测出完整人类基因组——单个 read 最长 882 kb（短读的 5000 倍）。覆盖基因组 91.2%。MinION 只有 USB 大小、电池供电。2015 年西非埃博拉疫情中被装进背包带到前线——从样本到序列只要几小时，不需要实验室基础设施。

2019：PacBio HiFi——长 + 准合一

Aaron Wenger 等在 *Nat Biotech* 发表 PacBio HiFi（CCS，circular consensus sequencing）——核心聪明想法：把 DNA 做成一个环（SMRTbell 哑铃结构），聚合酶可以反复绕着读很多圈，每圈读一次，最后用共识算法合成高精度序列。

结果：平均读长 13.5 kb、精度 99.8%——长读和高精度第一次合一。打开了临床基因组学的新大门：罕见病诊断、癌症结构变异、全基因组组装。

测序读长演进 · 1977-2024 · 对数坐标

FIG. 7 — From 800 bp to 882,000 bp

读长的历史并非单调——Sanger 法 800 bp 是 1980-2000 年代的金标准；NGS 第一代（454 2005、Illumina 2008）为了换通量和成本反而缩短到 150-400 bp；第三代（PacBio HiFi 2019、Oxford Nanopore 2018）再次追求长读——HiFi 13.5 kb 是 Illumina 的 90 倍，Nanopore 单个 read 最长记录 882 kb，是 Illumina 的 5880 倍。长读的意义不只在"更长"，更在能跨越重复区域——2022 年 T2T-CHM13 之所以能完成着丝粒 / 端粒，就是长读第三代测序的功劳。
来源：Goodwin et al. 2016 Nat Rev Genet · Jain et al. 2018 Nat Biotech 36:338（882 kb 记录）· Wenger et al. 2019 Nat Biotech 37:1155（HiFi 13.5 kb）· 各厂商 2024 technical specs

2022：T2T-CHM13——首次真正完整

2003 年 HGP 宣布"完成"时，人类基因组仍有 8% 是空的——主要是着丝粒、端粒、rDNA 这些重复序列。19 年后，Telomere-to-Telomere (T2T) Consortium（由 Karen Miga、Adam Phillippy、Sergey Nurk 等领导）在 *Science* 发表 T2T-CHM13——第一个真正从端粒到端粒完整的人类基因组。

30.55Gb

T2T-CHM13 · 0% 空隙

T2T Consortium 2022 · 真正完整的人类基因组 关键技术：PacBio HiFi + Oxford Nanopore 超长读组合。用 CHM13 葡萄胎细胞系（单倍体，避免同源染色体干扰）。相比 GRCh38 新增 2 亿 bp 序列、修正 2.6 亿 bp，基因组从 30.22 亿 bp 完善到 30.55 亿 bp。 Nurk S et al., Science 376:44 (2022) · T2T Consortium 官方数据

2023：HPRC 泛基因组——走出"一个欧洲男人"

2023 年 5 月 10 日，*Nature* 刊出 Liao 等人的 Human Pangenome Reference Consortium (HPRC) 泛基因组草图——47 个人、94 条染色体单倍型，覆盖全球主要族群（非洲、欧洲、亚洲、美洲）。

意义：人类遗传学从"把大家都拿来比对一个参考"变成"每个人都能映射到最匹配的参考"。结构变异（SV）检出翻倍、短读错误率降 34%、119 Mb 之前丢失的序列被找回。

现有参考基因组 70% 是一个欧洲男子的 DNA——这让非洲、东亚、南美族群的变异识别大量错误。泛基因组让精准医学走向族群公平。 — HPRC Nature 2023

预期 2024 年扩到 350 人——精准医学终于在族群层面走向公平。

2024 + Industry Landscape

产业格局与中国崛起

Illumina 仍占 80%+ · PacBio / Oxford Nanopore 守住长读 · MGI 国产替代 · Ultima 目标 $100 基因组——NGS 产业进入 AI 时代的多组学战场。

2024 年全球 NGS 仪器市场约 70 亿美元。Illumina 仍然占 短读市场 80%+ 份额，但挑战者们陆续到位。

七大玩家

Illumina 🇺🇸 — 短读霸主，NovaSeq X 系列，2024 年市值约 200 亿美元
PacBio 🇺🇸 — 长读高精度，Revio (HiFi) 是临床和科研金标准
Oxford Nanopore 🇬🇧 — 长读 + 便携，MinION / PromethION，2021 伦敦上市
MGI / 华大智造 🇨🇳 — 国产 Illumina 替代，DNBSEQ-T7/T20 系列
Element Biosciences 🇺🇸 — 低成本短读 AVITI，Illumina 挑战者
Ultima Genomics 🇺🇸 — UG100 目标 $100 基因组
Singular Genomics 🇺🇸 — 高通量临床 G4

2024 全球 NGS 仪器市场份额 · Illumina 独占与挑战者

FIG. 8 — Illumina dominates, MGI rising

2024 年全球 NGS 仪器市场约 70 亿美元。Illumina 仍占主力，但它的短读市场份额从 2019 年的 ~80% 降至 2024 年的 ~70%——主要被 中国华大智造（MGI）的 DNBSEQ 系列（基于 2013 收购的 Complete Genomics 技术）和长读赛道的 PacBio + Oxford Nanopore 蚕食。临床和药企市场细分进一步加速这个趋势。
来源：LightCounting 2024 Q3 · Frost & Sullivan NGS 2024 报告 · Illumina 2024 年报（短读份额披露）· MGI 2024 半年报 · 份额为量纲约估

中国公司的崛起

华大基因（BGI）2013 年收购 Complete Genomics 获得基础测序技术，2016 年成立 MGI（华大智造），逐步推出 DNBSEQ 系列——目前已打破 Illumina 在中国市场的垄断，并进入东南亚、南美、非洲市场。2022 年 MGI 登陆上交所，市值一度破 300 亿人民币。

临床应用的规模化

产前 NIPT（无创产前）：全球年规模 30 亿美元。中国贝瑞基因、华大、诺禾致源主导全球
癌症基因组学：Foundation Medicine、Guardant Health、Tempus 等美国公司 + 中国诺禾致源、燃石医学
罕见病全外显子诊断：已成儿科医院标配
多组学（单细胞、空间转录组）：10x Genomics 主导，单样本数千万 reads 成标配

下一阶段：$10 基因组 + AI 驱动的多组学

2025-2030 年预期目标：$10 基因组——让基因测序像今天的血液检查一样常规。同时 长读第三代测序取代短读成为主流（当前 20% → 预期 50%+）、单细胞测序标准化、AI 驱动的基因组注释和预测（AlphaFold、Enformer 等模型）——精准医学和群体遗传学将进入新一轮爆发期。

Year	Paper / System	Venue	Significance
1975	Sanger + Coulson · plus-minus	J Mol Biol 94:441	第一个可用 DNA 测序
1977	Sanger + Nicklen · Dideoxy	PNAS 74:5463	Sanger 第二次 Nobel
1977	Maxam + Gilbert · Chemical	PNAS 74:560	同 1980 Nobel
1985	Mullis · PCR	Science 230:1350	1993 Nobel
1986	Hood + Hunkapiller · 自动化	Nature 321:674	ABI 测序仪原型
1995	Fleischmann + Venter · H. influenzae	Science 269:496	首个完整自由生活基因组
1998	Venter · Shotgun Proposal	Science 280:1540	Celera 宣战
2001	IHGSC · 人类基因组草图	Nature 409:860	HGP 公立版
2001	Venter · 人类基因组	Science 291:1304	Celera 私立版 · 同日
2005	Margulies · 454 Pyrosequencing	Nature 437:376	NGS 开场
2008	Wheeler · Watson Genome	Nature 452:872	首个 NGS 个人基因组 $150 万
2008	Bentley · Solexa/Illumina	Nature 456:53	Illumina 起点
2009	Eid · PacBio SMRT	Science 323:133	单分子实时测序
2010	Drmanac · Complete Genomics	Science 327:78	DNA 纳米球
2012	Rothberg · Ion Torrent	Nature 475:348	半导体芯片测序
2015	Illumina HiSeq X Ten	工业里程碑	$1000 基因组达成
2018	Jain · MinION Human Genome	Nat Biotech 36:338	ONT 完整人基因组
2019	Wenger · PacBio HiFi	Nat Biotech 37:1155	长+准合一
2022	Nurk · T2T-CHM13	Science 376:44	首次真正完整
2023	Liao · HPRC Pangenome	Nature 617:312	47 人 94 单倍型

从 Sanger 一个人读 50 个碱基到 HPRC 47 人泛基因组——两次诺贝尔、一场世纪竞赛、三次范式跃迁、成本降到 1/3000 万。