您现在的位置: 首页 /  资讯

赋能科研 | 华大智造DNBSEQ-T7助力开创“阴阳”编解码系统,解决DNA信息存储难题

时间:2022-04-26作者:华大智造阅读数:4539分享

起源于几千年前的中华“阴阳”思想,被应用于今天的生物学技术领域,并可能逐步改变未来的大数据产业发展。这或许是中国科学家才能碰撞出的“科技+文化”火花。

4月25日,《自然-计算科学》(Nature Computational Science)发表华大研究成果,研究团队基于华大智造DNBSEQ-T7测序平台开创了一套独具优势的“阴阳”编解码系统,用以解决当前DNA信息存储领域的技术难题。


Nature Computational Science官网截图


所有信息在计算机中只由二进制的方式存储,即0和1两个数码;


生物的遗传信息则储存在DNA中,以A、T、G、C四种碱基表现。


如果屏幕前的你是一位家长,在孩子学会这两个知识点之后,或许可以引导他们思考:


倘若把信息语言的0和1,转换为生物语言的ATGC,我们是不是就能把各类信息长久地保存在DNA中,让DNA成为“完美”的存储器了?


擅于把脑洞变为现实的科学家,已经用实际研究成果对这个问题给出了乐观的回答。



DNA凭什么碾压现有信息存储器?


我们正处在前所未有的信息大爆炸时代,据估算,2025年全球每天将产生491EB数据(1EB=1024PB,1PB=1024TB),相当于每天制造出2亿张DVD光盘。
随着5G技术、大数据、人工智能等领域的蓬勃发展,海量数据如何长期稳定存储已成为亟待解决的一大难题,而以“BT+IT”融合的DNA信息存储技术,或能为这个问题提供更优解,因此受到了越来越多的关注。
毕竟在存储信息这件事上,DNA可以说是坐拥数十亿年经验的资深前辈。相较于现有的U盘、硬盘、磁带等介质,DNA具备无法比拟的优势:
1)超高的信息密度:2012年《科学》杂志文章指出,1克DNA理论上可以存储455EB数据,相当于数千万个1TB移动硬盘的大小;
2)超长的待机时间:DNA作为相对稳定的分子,其半衰期长达521年,在理想状态下甚至可保存成千上万年;


科学家成功完成100万年前猛犸象DNA测序


3)超强的生物兼容性:DNA作为绝大多数生物遗传信息的载体,相对无机物、金属等存储介质而言,具有更强的生物兼容性。
2019年,“DNA数据存储器”入选《时代周刊》年度100项最佳发明。我们有理由相信,DNA凭借其独家天然优势,在信息密度、复制与维护成本、使用寿命等方面都具有颠覆现有技术的巨大潜能。


研究10年,科学家们还有什么烦恼?


2012年开始,科学家们不断进行DNA信息存储的相关尝试。由于必须考虑与当下合成测序技术的兼容性以及成本问题,前期DNA所能存储的信息密度都较低。于是,科学家们聚焦于如何提升存储的信息密度,也关注于生物技术兼容性问题,但仍不全面。


DNA存储流程图,与传统信息存储的“信息写入-保存-读取”步骤类似


一直到2017年,科学家引进信息通信领域的编码方法——喷泉码,以条件过滤的方式筛选DNA序列,唯有满足筛选条件方可进行最终生成,基于此实现了对生物技术的兼容。
尽管DNA喷泉码的诞生几乎解决了此前的技术瓶颈,但实际应用中也出现灵活性与适用性的问题。
一方面,喷泉码技术的建立是基于通信技术领域的原理基础,对原始数据类型偏好较强(如需要01分布相对均匀等),因此面向生物与信息融合新兴领域的DNA存储技术应用,存在一定的局限性。另一方面,通信领域的信号传输是即时的、可及时纠错的,而生物领域的DNA分子存储是异步异时的,一旦发生部分信息丢失或错误,便存在原有信息无法恢复的风险。
如何在保证信息转换效率和技术兼容的同时,大幅提高信息恢复的稳定性?毋庸置疑,技术需要进一步发展。


以中华“阴阳”思想,解DNA存储难题


面对DNA存储中编解码系统存在的棘手问题,深圳华大生命科学研究院(以下简称“华大研究院”)提供了全新的解决思路。中国科学家让人惊喜的地方,在于能够把我们引以为豪的古代哲学思想,融会贯通应用到现代生物学之中,并期待以之解决未来世界的难题。
4月25日,华大研究院、深圳国家基因库等多家机构的研究团队联合在《自然》(Nature)子刊《自然-计算科学》发表研究论文。研究团队结合DNA双链模型,从中华文化中“阴阳”对立统一的思想获得灵感,基于华大智造DNBSEQ-T7测序平台开创了一套名为“阴阳”的比特-碱基编解码系统,验证了该系统在信息密度、技术兼容性、数据恢复稳定性等多方面的优势。
阴阳哲理博大精深,其特点可简单概括为统一、对立和互化。研究院团队将其巧妙应用到DNA编解码系统当中,以两套不同的规则,分别对两条二进制信息进行“一对一”编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。



“阴阳”编解码规则示意图


机智的朋友可能会问,人工合成的DNA要保存在哪?目前,常用的保存方法分为体内和体外两种模式,两者孰优孰劣尚未形成明确定论。为了全方位验证“阴阳”系统的信息恢复稳定性,华大研究院团队通过体外DNA干粉和细胞体内大片段两种存储环境进行测试,皆实现了原始存储数据的完整恢复。


体外模式,研究团队采用不同浓度的原始DNA文库溶液进行了共200多组测试。结果证明,“阴阳”编码采用的线性数据恢复模式在每种DNA分子的平均拷贝数仅有100时,仍然能恢复最高88%的原始数据。而DNA喷泉码使用的编码方式使得每个数据包间存在一定的拓扑关联,在同样条件下,平均恢复率仅有1.3%。


另一方面,研究将信息存在了酵母活细胞的体内,酵母菌株经过1000代以上传代之后,信息仍可以被完美恢复。这在一定程度上意味着,利用活体细胞作为DNA存储的载体,上千年后原始信息或仍能被解读。这样的存储方式可以得到接近于天然DNA分子存储理论极限的物理信息密度,每克DNA能存储的信息量约为432.2 EB。



华大研究团队曾将《开国大典》影片存储于DNA中从起步至今短短十年时间,DNA信息存储领域已取得不少令人瞩目的研究成果,包括检索、修改等高级功能也已完成原理验证性的测试,以微软、谷歌等产业巨头形成的DNA存储联盟更是在为其商业化广泛合作蓄势。


华大智造的DNBSEQ测序技术将不断助力全球科研机构、数字信息产业界的突破,相信在不远的未来,“DNA硬盘”将成为我们日常生活中必不可少的数据存储设备之一。


该研究由深圳华大生命科学研究院主导,深圳国家基因库、首都师范大学、美国哈佛大学等多个研究团队共同参与。华大研究院平质博士为论文第一作者,华大研究院沈玥研究员、徐讯研究员与哈佛大学George M. Church教授为论文的共同通讯作者。


该研究受到国家重点研发计划(2021YFF1200100、2020YFA0712100)、国家青年科学基金(32101182)、广东省高通量基因组测序与合成编辑应用重点实验室(2017B030301011)、深圳合成生物学创新研究院等项目支持。本研究已通过伦理审查,严格遵循相应法规和伦理准则。

版权所有©2024 深圳华大智造科技股份有限公司 隐私政策法律声明
互联网药品信息服务资格证书[(粤)-非经营性-2024-0050] 粤ICP备16117185号粤公网安备号 44030802000485
本网站使用的cookies
我们希望使用必要的cookies来执行网站运行的基本功能。我们还希望设置分析cookies和广告cookies,通过评估您如何使用我们的网站来帮助我们进行改进。有关在本网站上使用cookies等详细信息,请参阅我们的隐私政策
仅接受必要的cookies接受全部cookies