随着华大智造基因测序仪被越来越多科研工作者、用户所熟知和应用,在基于华大智造测序平台的研究成果不断涌现的同时,华大智造测序平台也受到越来越多的关注。
2019 年 6 月,一篇名为Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers 的文章在Scientific Reports [1]上发表,该文章的作者为来自华南理工大学的陈嘉鋆等,通讯作者为杜红丽教授。文章系统地评估了不同测序平台和分析软件组合的准确性、一致性、效率等,这种组合目前常见主流测序平台和分析方法的系统评估为后续基因组测序及数据分析的科研工作提供了参考。其中MGISEQ-2000平台在SNP calling、测序质量Q20等方面表现优秀。
作者点评此课题在“精准医学研究”国家重点研发计划项目“医学生命组学数据质量控制关键技术研发与应用示范“的支持下完成,研究通过对多个测序平台及数据分析方法全流程的准确度&灵敏度、一致性以及数据分析运行效率的综合性对比,我们认为 Strelka2 的综合性能表现较好。本研究为后续基因组 NGS 变异位点检测的标准化提供了系统的数据支持和参考。
研究摘要下一代测序(NGS)逐步普及应用于科学研究和临床诊断。不同测序平台和不同变异分析软件的比较可以为基因组学提供重要指导。NGS 检测项目的数据分析流程需要标准化, 以保证检测结果的稳定性和可靠性。因此本文比较了三种变异位点检测软件:GATK4.0、Strelka2、 Samtools-Varscan2,并且结合五种测序平台:BGISEQ500,MGISEQ2000,HiSeq4000,NovaSeq 和 HiSeq Xten,两种建库应用:WGS、WES进行分析。结果综合比较发现,Strelka2 软件在检测准确度和处理效率方面表现最优性能。
研究方法:
· DNA 样品:NA12878 标准品
· 2个应用:WGS、 WES
· 5个测序平台:HiSeq4000 、NovaSeq 、HiSeq Xten(WES未测)、BGISEQ500、 MGISEQ-2000
· 测序策略:BGI平台(PE100)、 Illumina 平台(PE150)
· 3个变异软件:GATK4.0、Strelka2、 Samtools-Varscan2
· 文库构建:BGISEQ library: MGIEasyTM DNA Library Prep Kit V1 (Cat No. 85-05533-00, BGI)、外显子杂交试剂:Human All Exon V5 Target Enrichment Baits (Cat No. 519-6216, Agilent)
· 不同软件变异评价指标:准确率(Precision)、召回率(Recall) 、一致性(concordance)以及软件分析运行时间(running efficient)
流程图
研究结果:
1.过滤低质量 reads,WES 文库中,MGISEQ-2000 过滤reads 只有0.25%,其他平台 HiSeq4000 为 4.46%、NovaSeq 为 2.25% 、BGISEQ500 为 0.41%,Q20 都在95% 以上, MGISEQ-2000 达到 98.18% 。
2.WGS 文库中,MGISEQ-2000 过滤 reads 只有 0.21%,其他平台 HiSeq4000 为 8.25%、NovaSeq 为 1.28% 、BGISEQ500 为 1.76%、HiSeq Xten 为 7.29%,Q20 都在 93% 以上, MGISEQ-2000 达到 96.17% 。
3.WES 文库中,MGISEQ-2000 测序深度低于其他三个测序平台,但是后续 SNP calling 性能优于其他三个平台,INDEL calling方面,MGISEQ2000的表现优于BGISEQ500。
WES 变异分析结果比较:
1.不同分析流程(仪器+软件)分析 WES 变异检测结果:Strelka2 在 WES 的所有分析流程中检测性能的综合表现最好,MGISEQ-2000 平台在 SNP calling 性能优秀。
2.计算不同测序深度下三种软件的运行时间,对于 BGI 平台, Strelka2 软件的运行时间比 GATK 快 8.85 倍,平均比 Samtools-Varscan2 快 67.16 倍。对于 Illumina 平台,Strelka2 软件的运行时间比 GATK 快 6.63 倍,平均比 Samtools-Varscan2 快 47.89 倍。
左图:四个平台,三个分析软件 SNP 和 indel calling准确性和召回率,实心点为数据阈值,越靠近右上角性能越好;
右图:不同平台,SNP 和 indel calling F 值的分布,F 值越高,表明其综合性能越好。
WES 截取不同深度测序数据分析变异软件对应的运行时间情况(20x、40x、60x、100x)
WGS 变异分析结果:
1.不同分析流程(仪器+软件)分析 WGS 变异检测结果:Strelka2 在 WGS 的所有分析流程中检测性能的综合表现最好。
2.计算不同测序深度下三种软件的运行时间,对于 BGI 平台,Strelka2 软件的运行时间比 GATK 快 45.52 倍,平均比 Samtools-Varscan2 快 69.49 倍。对于 Illumina 平台,Strelka2 软件的运行时间比 GATK 快 41.94 倍,平均比 Samtools-Varscan2 快 62.49 倍。
A 图.四个平台,三个分析软件 SNP 和 indel calling准确性和召回率,实心点为数据阈值,越靠近右上角性能越好;
B 图.不同平台,SNP 和 indel calling F 值的分布,F 值越高,表明其综合性能越好。
WGS 截取不同测序深度,分析变异软件对应的运行时间情况(6x、12x、18x、24x、30x)
讨论交流:
本文推荐 Strelka2 作为最佳变异分析流程的变异位点检测软件,因为检测变异精度高、一致性高、处理速度快。通过比较分析出以下结论:
1.WES 文库数据使用软件分析,SNP calling 分析表现优秀,其 F 值全部高于 0.96,INDEL calling F 值 0.75-0.91之间。WGS 文库数据使用软件分析,SNP calling 的 F 值全部高于 0.975,INDEL calling 的 F 值在 0.71-0.93。
2.比较 WES 分析结果发现,BGI 平台(PE100)在 SNP calling 表现出优越的性能,而 Illumina 平台(PE150)在INDEL calling 中表现出更好检测性能,可能是测序策略所导致。
3.WES 文库中,MGISEQ-2000 测序文库深度低于其他三个测序平台,但是后续 SNP calling 性能优于其他三个平台,INDEL calling方面,MGISEQ2000的表现优于BGISEQ500。
4.Upset Venn plot 分析变异结果一致性高,而且 INDEL calling 之间的差异总是大于 SNP calling。
5.不管哪个测序平台, Strelka2 软件分析性能都要优于其他软件。而且在 WES 和 WGS 数据分析过程中, Strelka2软件处理速度远高于 GATK 或 Samtools-Varscan2 处理速度
参考文献:
[1] Chen J, Li X, Zhong H, et al. Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers[J]. Scientific Reports, 2019, 9(1): 9345.