一公斤DNA或可存储全球所有数据!万物皆“硬盘”解开传统存储困境

发布者:毕昆发布时间:2021-07-01浏览次数:685

在科幻片中,地球即将面临毁灭性灾难,人类家园和文明岌岌可危。有人提出将生命体和人类文明信息全部搬至“诺亚方舟”,然而在星际迁移过程中,外部环境的变化随时可能导致传统存储介质的“寿终正寝”,宝贵数据毁于一旦。有没有一种存储密度大且安全稳定的数据存储方式呢?近年来,科学家们将目光投向最古老生命存储工具——DNA。

据国外媒体报道,美国麻省理工学院的科学家近日开发了一种标记和检索DNA数据文件的技术,能够快速、准确的识别检索DNA数据文件,为DNA数据存储技术发展带来希望。《科技周刊》记者专访东南大学生物科学与医学工程学院生物电子学国家重点实验室专家,为我们揭秘这一技术。

图片来源:视觉中国图片来源:视觉中国

拯救数据危机,DNA存储密度高寿命长

数字时代,我们将文本、照片和其他类型的信息都编码为一系列的“0”和“1”,而同样的信息也可以利用构成遗传密码的4种核苷酸(A、T、G和C,即腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)编码在DNA中。

东南大学生物科学与医学工程学院生物电子学国家重点实验室主任陆祖宏告诉《科技周刊》记者,DNA数据存储首先通过计算机算法将二进制数据映射成碱基序列,然后合成特定序列的DNA完成编码的写入。“由于DNA肉眼无法看见,所以我们需要利用聚合酶链反应技术(即PCR,一种可对特定DNA片段进行放大扩增的生物技术)来实现数据拷贝,并通过专业测序仪器测得目标DNA的所有碱基序列,进而通过解码转换成二进制数据,完成数据的读取。”陆祖宏说。

观看社交媒体动态、发邮件、浏览网页……人类无时无刻不在制造产生大量的数据。数据表明,预计到2025年,全球数据信息总量将达到163ZB, 约相当于87.5亿张2TB常用硬盘,随着数据的不断积累,在可预见的未来,基于传统硅基储存介质的储存方式将不可避免地陷入资源枯竭困境。“现阶段使用的主要存储方式包括磁带、硬盘驱动器、蓝光存储器和闪存等,都存在有效存储时间短、数据易丢失缺损、能源消耗大、维护成本高以及污染环境等缺陷弊端。因此,寻求一种新的数据存储介质势在必行。”东南大学生物科学与医学工程学院生物电子学国家重点实验室博士毕昆表示,作为已知最密集、稳定的数据存储介质之一,DNA可以保证生物体内海量遗传信息安全的存储和一代代稳定的复制遗传,具有存储密度高、存储时间长、能量消耗低、并行存取性好、损耗率低和兼容性强等特点。

“相比传统磁存储、光存储这些单层平铺方式的存储,DNA双螺旋立体结构的存储量有了多个数量级的飞跃。”毕昆举例解释,理论上来说,1g的DNA可存储455EB(艾字节)信息, 4gDNA可存储全球一年产生的信息量,而1kg的DNA可以存储人类所有的信息。DNA单位体积的存储密度是硬盘和存储器的106倍, 是闪存的103倍。

DNA作为最稳定的储存设备之一, 对于外部环境, 如高温、震荡等具有极强的抗干扰能力。即使经历数千年自然环境的考验,DNA数据信息依旧能够被有效地读取。研究表明,在-5℃的条件下,DNA每6.8×106年只降解1bp。通常情况下,所有传统的数据存储10年左右就会开始失去完整性,而DNA作为数据存储介质的寿命则要长得多,可以达到上万年甚至几十万年,而且很容易通过聚合酶链反应技术放大,从而轻松获得所需的拷贝数。在东大生物电子学国家重点实验室内,陆祖宏团队曾尝试过将中国四大名著通过特定编码存储至人造DNA链中,并以溶液的形式进行低温保存。“尽管只有很小一瓶溶液,但其中所包含的数据拷贝量高达10万份,且保存这些合成后用于存储的DNA只需极低的能量消耗。”

万物皆可“硬盘”,DNA存储可复原可传递

DNA数据存储技术开辟了一种新的存储模式, 其发展对于节省存储能源及推进大数据存储发展有着重要作用。早在2019年第三届EmTech China全球新兴科技峰会上,科学家通过一种含有DNA数据的材料3D打印出一只塑料兔子,切下这只兔子身上的任意部位,在解码其附带的DNA信息后,即可制造出一只一模一样的兔子。

为何任意切一小块都可以成功复原这只兔子?“这是因为我们肉眼看到的这只兔子,实际上是由无数包裹着DNA信息的二氧化硅小球拼接起的整体,任一小球中都有着科学家事先存入的全部数据信息。就好像我们人体的任何一块组织中都包含着人的所有基因信息一样,获取这只兔子的任何一个部分,都可以很容易获得其所携带的数据信息。”陆祖宏解释,如果将DNA存储以溶液或者粉末的形式进行展示,则观感可能并没有那么强烈。“3D打印兔子是更直观地告诉大家,DNA里的数据几乎可以储存在任何物体中,且这些物体损坏了也没关系,只要还有一小块就能复原所有数据,换句话说,所有物品都能成为储存数据的‘硬盘’。”

那么,在DNA数据存储长久过程中是否会出现部分编码的错误?如何能够确保其准确性呢?毕昆介绍,受限于现有的DNA合成技术,编码写入的碱基序列会分割为长度相同的短序列,一般单条序列长度不超过200bp。每一条需要合成的序列里包括引物、数据、地址位、纠错码等。虽然不同DNA模型之间存在差别,但DNA信息编码写入的流程大致相同,主要包括数据压缩-引入纠错-转换为碱基序列的过程。解码前通过PCR扩增得到多个DNA拷贝,再对拷贝进行DNA测序,获取DNA序列的碱基排列方式,随后对序列纠错、去冗余、解码,最终读取原始数据。

“针对可能存在的编码错误问题,一般有两种处理方式。”毕昆进一步解释,首先从硬件方面,不断提高合成测序和存储技术,从而确保合成、测序时错误率更低;第二是从软件方面加入纠错算法,就像人们常说的“重要的事情说三遍”,研究者为了保证信息传递的准确性,在多个位置植入冗余信息,方便接收信息时自动修正。“DNA数据存储的容错率与冗余信息的多少有关,一般来说,添加5%的冗余信息,基本可以保证数据存储的高准确性。”毕昆说。

“冷数据”福音,DNA存储商业化仍在路上

在生活中,除了我们经常使用的数据之外,其实还存在很多访问量小却又必要储存的数据,即所谓的“冷数据”。“常见的‘冷数据’包括档案馆资料、备份数据和监控视频等,这些数据的特点在于数据量大且使用率较低,但在必要时刻可发挥重要作用。”陆祖宏举例,对于医院这类特定单位,海量的病人信息需要保存长达几十年,为了确保信息安全和准确,常常每十年就需要维护一次,其信息存储成本极高。“DNA数据存储正是面向这类‘冷数据’,通过溶液或干粉的形式对DNA进行保存,并对其外部封装,从而实现长久存储。”

存储密度大、存储数据形式多样、保存时间长……尽管DNA存储优势明显,但其发展也面临着许多“拦路虎”。“目前,DNA存储技术发展瓶颈主要集中在写和读上,包括读写速度慢,成本高,随机读写困难等,因此难以大规模商用。按照去年DNA数据存储的合成技术和成本估算,8G的DNA存储合成成本在人民币1000万以上。”陆祖宏说,虽然目前DNA存储成本较高,但与测序技术类似,一旦找到技术突破口,其成本下降非常快。放眼更长的时间尺度和数据存储空间压力下,DNA具有独特的数据存储优势,且发展前景巨大。

陆祖宏举例,在实际应用层面,目前已经有科研单位实现在酵母菌生产中加入DNA存储标签,即像商品可以溯源一样,科研人员也可以在细菌中植入“水印”。“ 尽管DNA存储为代表的碳基存储方式还有很长的道路要走,但随着存储和读取技术的发展,相信DNA编码和测序的效率提升,成本将大幅下降。届时,DNA存储商业化应用曙光也在前方。”

新华日报·交汇点记者 谢诗涵

编辑: 蒋明睿