Genome Sequencing · 里程碑深度报道 · 分子生物学半世纪 VOL. 01 · ISSUE 010 · 2026.04

Forty-Eight Years 基因组测序 Genome Sequencing From Frederick Sanger's 1975 plus-minus method  ·  to Craig Venter's 2000 White House handshake with Francis Collins  ·  to Illumina's 2015 $1000 genome  ·  to T2T-CHM13's first truly complete human genome in 2022  ·  to the HPRC pangenome going beyond "one European man" in 2023

一位两次获诺贝尔奖、没申请过专利的剑桥贵格会教徒 · 一场 3 亿美元私立公司挑战 30 亿美元公立计划的对决 · 一台 USB 大小的英国测序仪被背进埃博拉疫区 · 成本从 30 亿美元跌到 $100——比 Moore 定律快 3 倍的降本曲线——
这是一段 48 年的故事。

20 篇里程碑 约 8,600 字 预计阅读 45 分钟 2026 年 4 月整理
Editor's
note

1980 年 12 月,剑桥大学分子生物学实验室(LMB)。65 岁的 Frederick Sanger 收到斯德哥尔摩的电话——他再次获得诺贝尔化学奖。这是因为 DNA 测序。

在他之前和之后,只有四个人两次获得诺贝尔奖:居里夫人、鲍林、巴丁,以及 Sanger——1958 因蛋白质测序获化学奖,1980 因 DNA 测序再获化学奖。

Sanger 是英国约克郡人,出身贵格会家庭,一生近乎沉默。他在 LMB 做的工作既不申请专利、也很少发综述,只发原始论文。去世前接受的最后一次采访里,他只说了一句话:"人们问我为什么成功——我从不放弃一个有意思的问题。"

从他 1975 年发明 plus-minus 法到 2022 年 T2T-CHM13 真正完整的人类基因组,48 年时间里,DNA 测序经历了三次范式跃迁(Sanger → NGS → 第三代长读)、两次诺贝尔奖(Sanger 1980、Mullis 1993)、一场史上最著名科研竞赛(HGP vs Celera 1998-2003)——而成本从 30 亿美元跌到 $100,降本速度比 Moore 定律快 3 倍。

这篇报道是里程碑系列第 10 册——分子生物学最定义性的技术史。主线四幕:Sanger 奠基(1975-1986)→ 人类基因组竞赛(1995-2003)→ NGS 军备竞赛(2005-2015)→ 完整基因组与泛基因组(2018-2023)。

Figure 1 — The long arc · 48 years of DNA sequencing 1975 → 2023

从 Sanger 一个人读 50 个碱基到 HPRC 47 人泛基因组——两次诺贝尔、一场世纪竞赛、三次范式跃迁、成本降到 1/3000 万。

SANGER ERA · 1975-1995 HGP vs CELERA · 1998-2003 NGS ARMS RACE · 2005-2015 COMPLETE + PAN 1975 1985 1995 2001 2008 2015 2020 2023 Sanger 1977 · 双脱氧 1980 Nobel · Maxam-Gilbert 同期 Mullis 1985 · PCR 1993 Nobel Hood 86 · 自动化 Fleischmann 95 首个完整基因组 Venter 98 · Celera 宣战 2001.02 · 人类基因组草图 HGP (Nature) · Celera (Science) 同日 454 · NGS 开场 Margulies 05 Bentley 2008 · Illumina Solexa + 桥式 PCR PacBio 09 · SMRT Ion Torrent 12 半导体测序 $1000 Genome Illumina HiSeq X Ten MinION 18 USB 测序仪 HiFi 19 长+准 T2T-CHM13 · 2022 首次完整人基因组 HPRC 2023 泛基因组 47 人
I
1975  —  1986  ·  Sanger Era

Sanger 的奠基

一位两次获诺贝尔奖的剑桥贵格会教徒 · 双脱氧 vs 化学降解两条路线同年发表 · Mullis 开车时想出 PCR · Hood 把测序送进工厂——11 年从"能读 50 bp"到"电脑自动读峰"。

九八〇年 12 月,剑桥大学分子生物学实验室(LMB)。65 岁的 Frederick Sanger 收到斯德哥尔摩的电话——他再次获得诺贝尔化学奖。这一次是因为 DNA 测序。

在他之前和之后,只有四个人两次获得诺贝尔奖:居里夫人(1903 物理、1911 化学)、鲍林(1954 化学、1962 和平)、巴丁(1956 电子管+1972 超导)、以及 Sanger——1958 因蛋白质测序(胰岛素)获化学奖,1980 因 DNA 测序再获化学奖。

人们问我为什么成功——我从不放弃一个有意思的问题。 — Frederick Sanger (1918-2013)

1975:plus-minus 法——第一个可用的 DNA 测序

1975 年 Sanger 和 Alan CoulsonJ. Mol. Biol. 发表了一个笨拙但聪明的方法——用 DNA 聚合酶合成新链,再用两套相反的条件(plus / minus 反应)互相校对,读出 ~50-80 个碱基。但它的概念突破在于:用"新合成"而不是"切现成的 DNA"来读序列——这成了后来所有测序方法的祖先。

1977:两条路线同年发表,共享 1980 Nobel

1977 年是 DNA 测序的分叉点。两篇论文几乎同期问世:

Sanger, Nicklen, Coulson · Dideoxy Chain Termination
PNAS · Vol. 74 · 5463 · 10.1073/pnas.74.12.5463
核心想法:合成 DNA 时混入少量"缺了 3'-OH"的双脱氧核苷酸 ddNTP——一旦聚合酶把它接进去,链就再也长不下去。四管反应分别只放一种 ddNTP,得到四组不同长度的片段。聚丙烯酰胺凝胶电泳分开读出——读长 ~200-500 bp。
Maxam, Gilbert · Chemical Sequencing
PNAS · Vol. 74 · 560 · 10.1073/pnas.74.2.560
完全不同的思路:给 DNA 加放射性标记,用不同化学试剂(DMS / 肼等,对应 G / A+G / C+T / C 四个切割反应)分别切割特定碱基,再电泳读出。需要大量 DNA 起始量 + 危险化学试剂——1990 年代几乎消失。

Sanger 双脱氧链终止法 · 工作原理

FIG. 2 — How dideoxy sequencing reads bases
1. 四管反应 · 每管只放一种 ddNTP 模板 DNA:3'-T-C-A-G-C-T-G-A-A-5' + ddA 停在 A 处 5' A 5' TGA 5' TGACGA 片段长度 1, 3, 6 + ddC 停在 C 处 5' TGAC 5' TGACGAC 片段长度 4, 7 + ddG 停在 G 处 5' TG 5' TGACG 5' TGACGACT 片段长度 2, 5, 8 + ddT 停在 T 处 5' T 片段长度 1* 凝胶电泳 按大小分开 2. 凝胶条带 · 从下往上读 高分子量(长片段)在上 · 低分子量(短片段)在下 ddA ddC ddG ddT ← 1 (T/A start) ← 2 · G ← 3 · A ← 4 · C ← 5 · G ← 6 · A ← 7 · C ← 8 · G (top) 从下往上读:T-G-A-C-G-A-C-G 新合成链: 5'-T G A C G A C G-3'

Sanger 双脱氧链终止法的精髓——用四管独立反应,每管只加一种双脱氧核苷酸(ddA/ddC/ddG/ddT)。DNA 聚合酶正常合成,但一旦随机接到 ddNTP 就停止(因为它 3'端缺 OH,接不上下一个核苷酸)。于是每管产生一堆长度不同的片段,但所有片段都在同一种碱基处终止。四管分别跑凝胶电泳,按片段大小分开——从最短(底部)到最长(顶部)依次读出,就是新合成 DNA 的序列。1986 年 Hood 把四个 ddNTP 各标一种荧光染料合并到一管,加上 CCD 相机——自动化测序诞生。
来源:Sanger, Nicklen, Coulson 1977 PNAS 74:5463 · 示意图改编自 Molecular Biology of the Gene 7th ed. · 图中序列为说明用例,非真实数据

两种方法分享 1980 Nobel 化学奖(与 Paul Berg 共享,后者因重组 DNA 研究)。历史给出了不同的命运:Sanger 法能自动化(1986 Hood 实现),Maxam-Gilbert 不能——到 1990 年代,Maxam 方法几乎消失

1985:Mullis 开车时想出 PCR

1983 年 5 月的一个晚上,加州 Mendocino 高速公路上,Kary Mullis 开着车,脑子里闪过一个想法:用两条引物分别对应 DNA 双链的两端,循环变性-退火-延伸——指数扩增。1985 年这个想法在 Science 发表,作者列表里 Mullis 不是第一作者(是 Saiki)。但 1993 年他拿到了 Nobel 化学奖(和 Michael Smith 共享)——因为核心想法是他一个人的。Mullis 后来变得相当古怪(相信占星术、HIV 否认论者),但这不影响 PCR 成为整个生物学实验室最基本的工具

1986:Leroy Hood 把测序送进工厂

加州理工的 Leroy Hood 和 Michael Hunkapiller 团队在 Nature 发表第一台自动化 DNA 测序仪原型——把 Sanger 法的 4 种 ddNTP 各标一种不同颜色的荧光染料,四管反应合并成一管,激光扫描,电脑直接读峰。

这是质的跃迁:从"人看 X 光片上的条带"到"电脑读峰"。Hood 后来把这个技术授权给 Applied Biosystems(ABI),ABI 最终成为人类基因组计划的主力仪器供应商。没有 Hood 1986 的自动化,1990 年启动的 HGP 是不可想象的。

II
1995  —  2003  ·  HGP vs Celera

人类基因组竞赛

Fleischmann 1995 首个完整基因组 · Venter 1998 Celera 宣战 · 白宫握手 2000.06.26 · 同日发表 2001.02.15/16——史上最著名科研竞赛以公立私立并列告终。

九九五年 7 月 28 日,Science 刊出 Robert Fleischmann、Craig Venter 等的论文——流感嗜血杆菌(Haemophilus influenzae)完整基因组,1,830,137 bp,1,743 个基因。这是人类第一次完整读出一个自由生活生物的全部遗传信息

关键是方法——"鸟枪法"(whole-genome shotgun)。Venter 不做物理图谱,直接把基因组随机剪成 2-3 kb 的小片段、分别测序、再用计算机算法拼回。当时 HGP 的主流策略是更保守的 BAC-by-BAC(克隆逐段法)。Fleischmann 1995 证明了鸟枪法对中等基因组可行——这让 Venter 敢于在 3 年后宣布用鸟枪法做人类基因组

1998:Celera Genomics 宣战

1998 年 5 月 11 日,Craig Venter 联合 Perkin-Elmer 公司成立 Celera GenomicsScience 同日刊出 Venter 等人的论文——宣布用鸟枪法 3 年 3 亿美元做完人类基因组

这对公立 Human Genome Project(HGP,1990 年由美国国立卫生研究院 NIH 和能源部 DOE 启动)是一次震动。HGP 计划是 15 年 30 亿美元,当时刚做到 3%。Venter 提议:Celera 3 年超前完成、数据库收费订阅、公开序列但附加商业限制。

HGP 由 Francis Collins(NIH)、Eric Lander(MIT/Broad)、John Sulston(Sanger Centre 英国)领导。他们的回应:加速,不放弃。英国 Wellcome Trust 追加 3.5 亿英镑资助 Sanger Centre。两边开始军备竞赛——谁的测序仪更多、谁的算法更强、谁的序列先发表。

2000 年 6 月 26 日:白宫握手

克林顿总统出面调停。2000 年 6 月 26 日,白宫椭圆办公厅,Collins 和 Venter 一起出席记者会,宣布"两边都完成了人类基因组草图"——各自 90% 覆盖。英国首相 Blair 通过屏幕加入。这是典型的政治解决——双方宣布并列胜利

今天我们共同学习着造物主创造生命时所用的语言。 — Bill Clinton, 2000.06.26 白宫记者会

2001.02.15/16:同日发表

HGP vs Celera · 两种策略对比

FIG. 3 — Two strategies, one genome
HGP (公立) Celera (私立) 领导人 Francis Collins (NIH) Eric Lander · John Sulston Craig Venter Perkin-Elmer 合作 预算 $30 亿美元 $3 亿美元 时间 1990 → 2003 (13 年) 1998 → 2001 (3 年) 策略 BAC-by-BAC 克隆逐段法 鸟枪法 (whole-genome shotgun) 数据政策 每天释放 GenBank 订阅收费 + 有限公开 2001 发表 Nature (2.15) Science (2.16) 遗产 公共基因组遗产 2005 数据库破产 → 公开

两边看似都胜——HGP 守住公共遗产原则,Celera 证明私立可行。但长期看 HGP 的"开放数据"模型最终胜出:Celera 的数据库生意 2005 年破产,所有数据被迫上传 GenBank 成为公共资源。
来源:IHGSC 2001 Nature 409:860 · Venter 2001 Science 291:1304 · Francis Collins 自传 *The Language of God* · Craig Venter 自传 *A Life Decoded* · NHGRI 公开资料

最震撼的发现:人类只有 ~20,000 个基因

2001 年两篇论文都给出了同一个令人震惊的数字——人类只有约 20,000-25,000 个蛋白编码基因,比果蝇(14,000)多不了多少。这颠覆了此前 "人类有 10 万基因" 的预期,宣告"基因决定论"过于简单。从此表观遗传学、非编码 RNA、调控网络研究开始崛起。

人类基因数量 · 1990 预测 vs 2024 共识

FIG. 4 — "100,000 genes" was wrong by 5×
时间 / 来源 预测基因数 实际值 1990 HGP 启动预测 专家共识 100,000 1995 重估 专家下修 80,000 2001 HGP 草图 IHGSC Nature 30,000 - 35,000 2003 HGP 完成图 精修版 22,000 ★ 2024 共识 GENCODE v45 ~19,900 对比 · 其他物种基因数 果蝇 14,000 线虫 19,700 小鼠 22,000 人 19,900 玉米 32,000 水稻 35,000

1990 年 HGP 启动时,基因组学家预测人类有 10 万个基因——五倍于实际值。2001 年草图发表时估为 30,000-35,000;2003 年完成图下修到 22,000;2024 年 GENCODE v45 的共识是 约 19,900 个蛋白编码基因——比线虫(19,700)多不了多少,比玉米(32,000)还少。基因数与物种复杂度的关系并非单调——这催生了表观遗传学、非编码 RNA、基因调控网络等新领域。
来源:Watson 1990 Science 248:44(HGP 启动时预测)· IHGSC 2001 Nature 409:860 · Finishing HGP 2004 Nature 431:931 · GENCODE v45 (2024.01) · Ensembl 统计

2003 年 HGP "完成图"(finished sequence)发布——99% 覆盖,精度 99.99%。但异染色质区域(着丝粒、端粒、rDNA)约占基因组 8%,一直没解决。直到 2022 年的 T2T 才补完。

III
2005  —  2012  ·  NGS Arms Race

NGS 军备竞赛

454 焦磷酸 · Illumina 桥式 PCR · PacBio 单分子实时 · Complete Genomics 纳米球 · Ion Torrent 半导体——10 年 4 种化学路线厮杀,最后 Illumina 赢了。为什么?

〇〇五年 Sanger 法 + ABI 仪器到了极限——一台 3730xl 一天跑 96 个样本 × 800 bp。要再降本只能换范式。NGS 开始了。

2005:454 开场

Jonathan Rothberg 创办的 454 Life SciencesNature 发表第一个 NGS 平台。原理:DNA 珠子放在微井里(picoliter 反应器),每次加一种碱基,如果合成就释放焦磷酸 → 光信号。CCD 相机一次拍 40 万个井。读长 ~100 bp、通量 20 Mb/run——比 Sanger 便宜 50 倍

2007 年 454 测完 James Watson(DNA 双螺旋发现者)的基因组,费用 150 万美元——第一个 NGS 个人基因组(Wheeler 2008 *Nature*)。

2008:Solexa/Illumina 的桥式 PCR 革命

英国剑桥的 Solexa 公司用了完全不同的化学:桥式扩增(bridge amplification)+ 可逆终止子(reversible terminator)。DNA 模板在玻璃芯片上形成几百万个簇,每个簇里约 1000 个 DNA 分子同时测序。每轮加 4 种带不同荧光的可逆终止核苷酸——拍照,洗掉,下一轮。

2007 年 Illumina 用 6 亿美元收购 Solexa——这是生物技术史上最划算的收购之一。2008 年 *Nature* 刊出 David Bentley 等人的论文——第一个 Illumina 平台人类基因组,覆盖 30×,成本数十万美元。

NGS 四大平台原理对比(2005-2012)

FIG. 5 — Four platforms, four chemistries
平台 · 公司 原理 读长 精度 结局 454 (Roche) Rothberg · 2005 焦磷酸释放 → 光信号 Picoliter 微井 + 珠子 400 bp 同聚物错 2013 关停 ★ Illumina (Solexa) Bentley · 2008 桥式 PCR + 可逆终止子 4 色荧光 · 拍照 150 bp 99.9% ★ 赢家 PacBio SMRT Eid · 2009 ZMW 零模波导 单聚合酶实时观测 10 kb+ 85% → 99.8% 长读细分 Complete Genomics Drmanac · 2010 DNA 纳米球 + 连接测序 自组装阵列 35 bp 99.9% 2013 BGI 收购 Ion Torrent Rothberg · 2012 H+ 离子 → 半导体 pH CMOS 芯片读电信号 400 bp 同聚物错 临床小 panel

Illumina 赢的四大原因:①化学最经济(一轮一色一拍);②读长 150 bp 够用;③桥式扩增可规模化(HiSeq→NovaSeq 单机通量 10 年涨 100 倍);④平台生态最完整(文库到云分析全栈)。最终结局:454 于 2013 年被 Roche 关停、Complete Genomics 2013 年被 BGI 收购、SOLiD 2015 年停产——NGS 市场 Illumina 独占 80%+ 份额至今
来源:Margulies 2005 Nature 437:376 · Bentley 2008 Nature 456:53 · Eid 2009 Science 323:133 · Drmanac 2010 Science 327:78 · Rothberg 2011 Nature 475:348 · Goodwin 2016 Nat Rev Genet 综述

2009 PacBio · 2012 Ion Torrent

PacBio SMRT 走了完全不同的路——零模波导(ZMW)+ 单聚合酶实时观测。一个直径 ~70 nm 的小孔(比光波长还小)只能放一个聚合酶分子,每加一个带荧光的核苷酸就闪一下光——相机实时记录。读长远超 NGS(2009 年 1,000 bp,2019 年 HiFi 平均 13.5 kb),但早期错误率高达 13%。

Ion Torrent(Rothberg 第二次创业)2012 年在 *Nature* 发表半导体测序——不用光学,让 DNA 合成释放的 H⁺ 离子直接改变芯片 pH,CMOS 传感器读电信号。仪器便宜、快、耗材贵。2014 年被 Thermo Fisher 收购,在临床小 panel 场景活下来,但没撼动 Illumina。

IV
2007  —  2015  ·  The $1000 Genome

比 Moore 定律快 3 倍的降本曲线

2007 年 James Watson 的 NGS 基因组 $150 万——2015 年 Illumina HiSeq X Ten 达成 $1000——2023 年 Ultima UG100 达成 $100——8 年 1500 倍、16 年 15000 倍降本。

序成本从 2001 HGP 的 $30 亿美元开始,以比 Moore 定律快 3 倍的速度下降。这是生物技术史上最陡峭的技术降本曲线,没有之一。

15,000×
COST REDUCTION · 2007 → 2023
从 $150 万(Watson 2007)到 $100(Ultima 2023) 同样的人类基因组测序,16 年时间成本降到 1/15,000。这个降本速度是 Moore 定律(18 个月翻倍)的约 3 倍——因为每一代 NGS 仪器不仅提升单次通量,还降低化学试剂成本,双重叠加。 NHGRI DNA Sequencing Costs 官方数据 · GenomeWeb 2023 Ultima Genomics 公告

成本曲线的关键里程碑

人类基因组测序成本演进 · 2001-2024 · 对数坐标

FIG. 6 — Faster than Moore's Law
$100 $1K $10K $100K $1M $10M $1B 2001 2007 2010 2015 2020 2024 HGP 草图 $30 亿 · 2001 Watson 基因组 $150 万 · 2007 · 454 个人基因组 $10K · 2010 · Illumina $1000 Genome 2015 · HiSeq X Ten NovaSeq 6000 $600 · 2020 Ultima UG100 $100 · 2023 Moore 定律推算(参考线)

2001 HGP 完成时一个基因组成本 $30 亿美元。8 年后(2007)降到 $150 万。又 8 年(2015)降到 $1000。再 8 年(2023)降到 $100——降本速度比 Moore 定律快 3 倍,因为每一代 NGS 仪器不仅提升单次通量,还降低化学试剂成本,双重叠加。橙色虚线是 Moore 定律(18 个月翻倍)的参考线——测序降本明显更陡。
来源:NHGRI DNA Sequencing Costs 官方数据集 · NovaSeq 6000 2020 Q4 季报 · Ultima Genomics 2023 UG100 发布会 · Nature 综合报道

2015:$1000 基因组达成

2015 年 1 月,Illumina 在 JPMorgan 医疗大会发布 HiSeq X Ten 系统——10 台机器组成一组,单组一年产 18,000 个人类基因组,单个基因组测序成本降到 $1000 以下

这是生命科学史上的一个神话级里程碑——十多年前"第一个人类基因组 30 亿美元",现在已经便宜到:一个普通家庭都可以考虑给新生儿全基因组测序。

$1000 基因组不是终点,是新时代的起点——从"谁能做得起"变成"谁会从中获益"。 — Illumina CEO Francis deSouza, 2015
V
2018  —  2023  ·  Complete + Pangenome

USB 测序仪 · T2T · 泛基因组

Oxford Nanopore MinION 被背进埃博拉疫区 · PacBio HiFi 把长读和高精度合一 · 2022 T2T-CHM13 首次真正完整人基因组 · 2023 HPRC 走出"一个欧洲男人"。

Illumina + PacBio 2015 年的组合很强大,但还有三个硬伤:①短读长(Illumina 150 bp):重复序列区不能精确组装 ②长读早期错误率高 ③单一参考基因组 GRCh38:70% 来自一个欧洲男子的 DNA。

2018:Oxford Nanopore MinION——USB 测序仪

英国 Oxford Nanopore Technologies(ONT) 的 MinION 是一个 USB 大小的测序仪——插进笔记本电脑就能用。核心技术:蛋白纳米孔(α-溶血素或 MspA)嵌在膜上,DNA 单链像穿面条一样从孔里穿过,每个碱基经过时改变离子电流,电流波形对应碱基序列。

Jain, Olsen, Loose et al. · Nanopore sequencing and assembly of a human genome
Nat Biotech · Vol. 36 · 338 · 10.1038/nbt.4060
用 39 个 flow cell 测出完整人类基因组——单个 read 最长 882 kb(短读的 5000 倍)。覆盖基因组 91.2%。MinION 只有 USB 大小、电池供电。2015 年西非埃博拉疫情中被装进背包带到前线——从样本到序列只要几小时,不需要实验室基础设施。

2019:PacBio HiFi——长 + 准合一

Aaron Wenger 等在 *Nat Biotech* 发表 PacBio HiFi(CCS,circular consensus sequencing)——核心聪明想法:把 DNA 做成一个环(SMRTbell 哑铃结构),聚合酶可以反复绕着读很多圈,每圈读一次,最后用共识算法合成高精度序列。

结果:平均读长 13.5 kb、精度 99.8%——长读和高精度第一次合一。打开了临床基因组学的新大门:罕见病诊断、癌症结构变异、全基因组组装。

测序读长演进 · 1977-2024 · 对数坐标

FIG. 7 — From 800 bp to 882,000 bp
平台 典型读长 (log scale) 数值 100 bp 1 kb 10 kb 100 kb 1 Mb Sanger ABI · 1986 荧光+电泳 800 bp 454 焦磷酸 · 2005 NGS 第一代 400 bp ★ Illumina · 2008- 短读主流 150 bp (2×150 PE) Ion Torrent · 2012 半导体 400 bp PacBio HiFi · 2019 长读+高精度 13.5 kb ★ Oxford Nanopore 典型长读 50 kb (typical) Nanopore · Jain 2018 单个记录读长 882 kb (record)

读长的历史并非单调——Sanger 法 800 bp 是 1980-2000 年代的金标准;NGS 第一代(454 2005、Illumina 2008)为了换通量和成本反而缩短到 150-400 bp;第三代(PacBio HiFi 2019、Oxford Nanopore 2018)再次追求长读——HiFi 13.5 kb 是 Illumina 的 90 倍Nanopore 单个 read 最长记录 882 kb,是 Illumina 的 5880 倍。长读的意义不只在"更长",更在能跨越重复区域——2022 年 T2T-CHM13 之所以能完成着丝粒 / 端粒,就是长读第三代测序的功劳。
来源:Goodwin et al. 2016 Nat Rev Genet · Jain et al. 2018 Nat Biotech 36:338(882 kb 记录)· Wenger et al. 2019 Nat Biotech 37:1155(HiFi 13.5 kb)· 各厂商 2024 technical specs

2022:T2T-CHM13——首次真正完整

2003 年 HGP 宣布"完成"时,人类基因组仍有 8% 是空的——主要是着丝粒、端粒、rDNA 这些重复序列。19 年后,Telomere-to-Telomere (T2T) Consortium(由 Karen Miga、Adam Phillippy、Sergey Nurk 等领导)在 *Science* 发表 T2T-CHM13——第一个真正从端粒到端粒完整的人类基因组

30.55Gb
T2T-CHM13 · 0% 空隙
T2T Consortium 2022 · 真正完整的人类基因组 关键技术:PacBio HiFi + Oxford Nanopore 超长读组合。用 CHM13 葡萄胎细胞系(单倍体,避免同源染色体干扰)。相比 GRCh38 新增 2 亿 bp 序列、修正 2.6 亿 bp,基因组从 30.22 亿 bp 完善到 30.55 亿 bp。 Nurk S et al., Science 376:44 (2022) · T2T Consortium 官方数据

2023:HPRC 泛基因组——走出"一个欧洲男人"

2023 年 5 月 10 日,*Nature* 刊出 Liao 等人的 Human Pangenome Reference Consortium (HPRC) 泛基因组草图——47 个人、94 条染色体单倍型,覆盖全球主要族群(非洲、欧洲、亚洲、美洲)。

意义:人类遗传学从"把大家都拿来比对一个参考"变成"每个人都能映射到最匹配的参考"。结构变异(SV)检出翻倍、短读错误率降 34%、119 Mb 之前丢失的序列被找回

现有参考基因组 70% 是一个欧洲男子的 DNA——这让非洲、东亚、南美族群的变异识别大量错误。泛基因组让精准医学走向族群公平。 — HPRC Nature 2023

预期 2024 年扩到 350 人——精准医学终于在族群层面走向公平

VI
2024  +  Industry Landscape

产业格局与中国崛起

Illumina 仍占 80%+ · PacBio / Oxford Nanopore 守住长读 · MGI 国产替代 · Ultima 目标 $100 基因组——NGS 产业进入 AI 时代的多组学战场。

2024 年全球 NGS 仪器市场约 70 亿美元。Illumina 仍然占 短读市场 80%+ 份额,但挑战者们陆续到位。

七大玩家

2024 全球 NGS 仪器市场份额 · Illumina 独占与挑战者

FIG. 8 — Illumina dominates, MGI rising
公司 · 国家 市场份额 主力产品 1. Illumina (US) ~70% NovaSeq X · NextSeq 2000 2. MGI / 华大智造 (CN) ~15% DNBSEQ-T7/T20 · 国产替代 3. PacBio (US) ~5% Revio · HiFi 长读霸主 4. Oxford Nanopore (UK) ~5% PromethION · MinION · 便携 5. Element + Ultima + 其他 ~5% AVITI · UG100 · 低价新秀 Illumina 仍占短读市场 70%+,但 中国 MGI 国产替代 首次进入 Top 2。长读细分市场由 PacBio + ONT 瓜分。

2024 年全球 NGS 仪器市场约 70 亿美元。Illumina 仍占主力,但它的短读市场份额从 2019 年的 ~80% 降至 2024 年的 ~70%——主要被 中国华大智造(MGI)的 DNBSEQ 系列(基于 2013 收购的 Complete Genomics 技术)和长读赛道的 PacBio + Oxford Nanopore 蚕食。临床和药企市场细分进一步加速这个趋势。
来源:LightCounting 2024 Q3 · Frost & Sullivan NGS 2024 报告 · Illumina 2024 年报(短读份额披露)· MGI 2024 半年报 · 份额为量纲约估

中国公司的崛起

华大基因(BGI)2013 年收购 Complete Genomics 获得基础测序技术,2016 年成立 MGI(华大智造),逐步推出 DNBSEQ 系列——目前已打破 Illumina 在中国市场的垄断,并进入东南亚、南美、非洲市场。2022 年 MGI 登陆上交所,市值一度破 300 亿人民币。

临床应用的规模化

下一阶段:$10 基因组 + AI 驱动的多组学

2025-2030 年预期目标:$10 基因组——让基因测序像今天的血液检查一样常规。同时 长读第三代测序取代短读成为主流(当前 20% → 预期 50%+)、单细胞测序标准化AI 驱动的基因组注释和预测(AlphaFold、Enformer 等模型)——精准医学和群体遗传学将进入新一轮爆发期。

Epilogue

十个 counterintuitive 结论

48 年基因组测序史,浓缩成 10 条反直觉判断。

  1. 01
    Sanger 是史上第 4 个两次获 Nobel 的人。1958 蛋白质测序(胰岛素)+ 1980 DNA 测序——并且他没去做任何公司、没申请任何专利。
  2. 02
    1977 两条路线同年同刊同获 Nobel。但 Maxam-Gilbert 化学法因为无法自动化,1990 年代几乎消失——Nobel 也没能拯救一条技术路线。
  3. 03
    Mullis 开车时想出 PCR,论文第一作者不是他。但 1993 年拿 Nobel 的是他——核心想法是他一个人的。后来他变得古怪(相信占星术、HIV 否认论者)。
  4. 04
    HGP 1990 年预测人类有 10 万基因,2001 发现只有 ~20,000。比果蝇多不了多少。"基因决定论"从此破产,表观遗传学和调控网络时代开启。
  5. 05
    Venter 的 Celera 2005 年破产。私立人类基因组数据库卖不出去——大学和医院都在等 HGP 免费版。数据被迫上传 GenBank。开放数据模式最终胜出。
  6. 06
    Illumina 6 亿美元收购 Solexa 是生物技术史上最划算的收购。2007 年收购,2024 年 Illumina 市值 200 亿美元。收购时 Illumina 不是 NGS 的发明者,但它成了最大赢家——生态比原创性更重要。
  7. 07
    Oxford Nanopore MinION 2015 被背进西非埃博拉疫区。USB 大小、电池供电、样本到序列几小时——这是 Illumina 永远做不到的场景。不同用例可以并存不同技术。
  8. 08
    Watson 基因组 2007 年成本 $150 万,2023 年同样实验不到 $100。16 年、15,000 倍降本——NGS 是比 Moore 定律快 3 倍的降本曲线。
  9. 09
    2003 年 HGP"完成"基因组时漏了 8%。端粒、着丝粒、rDNA 等重复区域一直空白。19 年后 T2T-CHM13 才真正完整——0% 空隙。
  10. 10
    现有参考基因组 GRCh38 里 70% 是一个欧洲男人的 DNA。2023 HPRC 泛基因组走出"一个欧洲男人"——47 人 × 2 单倍型。精准医学开始走向族群公平。
Reference · 20 Milestones

20 篇核心文献

YearPaper / SystemVenueSignificance
1975Sanger + Coulson · plus-minusJ Mol Biol 94:441第一个可用 DNA 测序
1977Sanger + Nicklen · DideoxyPNAS 74:5463Sanger 第二次 Nobel
1977Maxam + Gilbert · ChemicalPNAS 74:560同 1980 Nobel
1985Mullis · PCRScience 230:13501993 Nobel
1986Hood + Hunkapiller · 自动化Nature 321:674ABI 测序仪原型
1995Fleischmann + Venter · H. influenzaeScience 269:496首个完整自由生活基因组
1998Venter · Shotgun ProposalScience 280:1540Celera 宣战
2001IHGSC · 人类基因组草图Nature 409:860HGP 公立版
2001Venter · 人类基因组Science 291:1304Celera 私立版 · 同日
2005Margulies · 454 PyrosequencingNature 437:376NGS 开场
2008Wheeler · Watson GenomeNature 452:872首个 NGS 个人基因组 $150 万
2008Bentley · Solexa/IlluminaNature 456:53Illumina 起点
2009Eid · PacBio SMRTScience 323:133单分子实时测序
2010Drmanac · Complete GenomicsScience 327:78DNA 纳米球
2012Rothberg · Ion TorrentNature 475:348半导体芯片测序
2015Illumina HiSeq X Ten工业里程碑$1000 基因组达成
2018Jain · MinION Human GenomeNat Biotech 36:338ONT 完整人基因组
2019Wenger · PacBio HiFiNat Biotech 37:1155长+准合一
2022Nurk · T2T-CHM13Science 376:44首次真正完整
2023Liao · HPRC PangenomeNature 617:31247 人 94 单倍型