自人类基因组计划(Human Genome Project,HGP)启动以来,测序技术得到了快速发展。大规模平行测序(Massively parallel sequencing,MPS)技术由于其在准确性、通量、速度和成本方面的突出优势,近年来得到了广泛应用。
伴随测序成本的降低、测序通量的提升,大规模全基因组测序成为可能,也为全球范围内的大人群基因组研究项目的实施提供了引擎。当前,大人群基因组研究成为全球热点,共有近50个国家宣布或启动国家级群体基因组项目,包括美国All of Us计划、英国UK Biobank计划、阿联酋国家基因组计划、新加坡国家基因组计划等,预计到2025年将完成超千万全基因组测序。然而,在进行更大规模的基因组研究数据分析时,分析效率、功耗和支持基础设施的成本仍然存在挑战,业界亟需准确、高效、节能的工具平台解决相关痛点。
今年11月,基于华大智造DNBSEQ测序平台产生的FASTQ数据,深圳华大生命科学研究院、华大智造和深圳国家基因库在Clinical and Translational Discovery 杂志在线发表了题为“An efficient large-scale whole-genome sequencing analyses practice with an average daily analysis of 100Tbp: ZBOLT” 的研究论文。该研究在11天内完成了1.16Pbp高深度全基因组测序数据的全套分析,展示了每天分析100Tbp的超高通量能力,并评估了华大智造ZBOLT生信分析加速器的准确性,为大规模人群基因组学研究提供了一套高效的分析体系。
ZBOLT系统:
准确、高效、节能
ZBOLT生物信息分析硬件加速系统是一款由华大智造自主研发,专注于高通量测序领域的BIT产品,该系统的发布也大大提升了大规模群体基因组研究数据分析能力,它还支持胚系突变与体细胞突变的全基因组(WGS)、全外显子组(WES)、Panel靶向测序数据分析。
ZBOLT结合了MegaBOLT流程,并针对WGS的群体分析进行了优化,包括种系和体细胞突变调用、全外显子组测序(WES)和靶向区域测序。ZBOLT严格遵守GATK最佳分析流程,通过异构计算、动态多任务调度和硬件配置支持来加速分析。
ZBOLT专门设计的任务调度算法优化了异构环境中的多节点计算调度。通过数据分割、压缩/解压缩算法的优化和精简的计算模型,加速了从FASTQ到变异检测结果VCF的过程。此外,支持非云端完全本地的ZBOLT分析系统,强化了对数据的安全性和隐私的保护。
此次评估完成了基于基因数据专属计算芯片系统ZBOLT的万例基因组分析应用示范:
(1) 准确可靠:准确性与GATK相当;
(2) 效率超高:10天完成1Pb全基因组数据的全套分析;
(3) 绿色节能:分析一个基因组仅需约1度电;
为了评估ZBOLT分析的准确性,研究人员采用了相同的参数分析以及相同的样本——GATK作为对照。F-measure用于评估SNP和INDEL calling的准确性。如下表所示,SNP calling评估中的平均F-measure为99.65%,INDEL calling评估为99.098%。这表明ZBOLT分析对SNP和INDEL calling都具有较高的准确性。三次重复的结果高度一致,这也进一步证明了ZBOLT系统的稳定性。
为了评估ZBOLT在大规模人群队列研究中的表现,研究人员将5616个WGS样品共1.16Pbp FASTQ数据依托ZBOLT系统中进行WGS全流程分析,在11.6天内成功完成了从FASTQ到VCF的分析,期间处理了超过2.5 Pb的输入和输出数据。
在该项研究中,ZBOLT系统平均每天可高效处理100Tbp的原始测序数据。整个项目测量能量总消耗为11306kWh,平均消耗仅为0.98kWh/100Gbp。换句话说,按照测序深度为30X的标准WGS样本测算,分析耗能不到一度电。
ZBOLT系统:
业界首个专门为群体基因组学研究设计的分析解决平台
作为一款WGS/WES生信分析加速工具,ZBOLT不依赖于稳定、高速的网络进行数据传输、任务调度和计算。ZBOLT系统的用户可以灵活地控制所有的软件、硬件和数据,以满足各种分析需求。ZBOLT是业界首个专门为群体基因组学研究设计的分析解决平台,它综合考虑了准确性、效率和功耗。
这项研究为大规模人群基因组队列的测序数据分析提供了宝贵的参考,并凸显了ZBOLT在大人群基因组研究中的巨大应用潜力。它作为大人群基因组研究的基础工具,同时也可支持各类农业基因组研究、生物多样性研究的群体分析,实现WGS/WES流程高速、精准的分析计算。未来,期待其能够在推动群体基因组学研究、遗传疾病诊断、精准医学和农业育种的发展方面发挥重要作用。
深圳华大生命科学研究院群体基因组学首席科学家金鑫研究员、方明艳研究员、深圳国家基因库执行副主任王博和深圳华大智造科技股份有限公司BIT负责人单日强为本文的并列通讯作者,中国科学院大学和深圳华大生命科学研究院联合培养在读博士生李志超、深圳华大智造科技股份有限公司谢寅龙博士和深圳国家基因库信息库主管曾文君为论文并列第一作者。