stLFR以其强大的虚拟隔离共标记技术(Virtual Co-Barcoding),通过单管操作就能轻松的获得基因组长片段信息。为了能高效的利用庞大的barcode信息,华大智造生信开发团队针对stLFR数据结构特点开发一款全新、自动化的stLFR数据分析工具。免费获取方式为:https://github.com/MGI-tech-bioinformatics/stLFR_v1.1。
图1. stLFR数据分析工具示意图。
(从下机数据开始,依次进行barcode拆分、低质量数据过滤、基因组比对、SNP/INDEL检测、单倍体组装、CNV检测和SV检测,最终得到stLFR数据报告)
数据展示
通过对2个NA12878数据结果来介绍stLFR数据分析工具的报告内容,详细展示工具能提供什么结果。
Co-Barcode聚类分析
利用DNA分子共标签技术,华大智造stLFR文库制备试剂盒能获取较好的长片段文库。那么在实际stLFR数据中的表现将通过三个图表展示。
图2. stLFR数据的barcode分布、覆盖。
每个barcode连接的片段数目(a, b)、每个片段的覆盖度(c, d)、每个片段的长度分布(e, f)
图3. stLFR数据深度覆盖、插入片段、GC bias示意图。
stLFR数据深度分布图(a)、累积深度分布图(b)、插入片段分布图(c)及GC bias示意图(d)。
单倍体组装
作为stLFR技术的重点之一,工具使用HapCUT2软件进行单倍体组装分析,得到较好的基因组组装结果。两个stLFR样品的单倍体组装的最大N50达到15M,phasing rate在99%+。