DNA存储追踪:用多少DNA能够存储信息?一公斤怎么样? 2018-03-06

          在最近几个月的文章中,我们一直在讨论DNA存储的可能性与技术发展;但对于它的实际应用以及相关原理还没有更深刻的解读。同样,如果方法合理,到底需要多少的DNA才可以代替一块真正意义上的硬盘呢?

 

DNA存储原理并不复杂

 

        我们知道,计算机上存储的数据都是依据电压的高和低代表1和0来表示的,每一个数字、字符和标点符号都由唯一的一串01组合来构成。比如小写字母“e”的代码是:01100101;而任何数字化的内容(视频,音频,图片,文字)本质上都只是一串串的0和1而已。

 

        而DNA的存储原理本质上就是把原本这些用0和1来表示的内容,换成用碱基:A,C,G,T来表示,这是一个从数字信号到化学信号的过程。由于碱基有四个,相比起原本的0和1,我们可以用来多表示两个状态,比如,我们可以假设用A代表00,C代表01,G代表10,T代表11。一个本来要用8bit代表的字符用DNA编码的话,只需要用4个化学碱基,比如上面的小写字符“e”编码成为DNA序列就是:CGCC。

 

 

      下图是哈佛大学医学院两年前做的一个研究,他们第一次利用这样的技术把这一张“奔跑的骏马”的Gif放进了活大肠杆菌的DNA里,而且还能重新测序并解码出来。

 

 

       原始影像(左)和从DNA中提取还原的gif(右),除了部分稍有模糊,准确度达90%左右。

       早在2016年,华盛顿大学和微软研究院的团队把莎士比亚的十四行诗、马丁·路德·金的演讲原声、医学论文等资料共计739KB的数据编码成了DNA序列,并存储起来,这个技术以此为标记取得了巨大的进步。

 

存储空间惊人

但是实现难度依然存在

 

        DNA存储结构和磁盘不同,它存储的密度极高,1克的DNA就能够存下天量的信息,如果要存下当前全世界的所有数据,更是只需要1千克左右的DNA就足够了,这就意味着不需要成千上万个阿里巴巴或者AWS的数据中心,算起来真的是经济实惠;但事实真的如此吗?

 

—合成成本过高

       DNA要存储信息,首先要做的就是依据信息合成DNA序列。那么现在的合成成本是多少呢?大约0.5美元~1.0美元一个碱基!也就是说存储2bit(一个碱基)的数据需要花费大约5元~10元人民币。

       按照目前的信息存储技术,一般是8bit为一个字节(Byte),2个字节才代表一个字符—也就是说8个碱基可以编码一个字符;这么算下来,要存储200MB的数据需要花费100百万~200百万美元的成本!

 

      因此,碱基合成的成本是第一个需要解决的难题。如果成本无法降低一百万倍,那么无法进入实用环节,而如果不能降低几亿倍甚至几十亿倍,那这个技术就像很难被应用到实际当中。

 

—合成速度过慢

      目前磁盘的存储速度是多快呢?由于磁盘的读写主要是电磁信号,信息状态的改变是以光的速度在发生的;当然磁盘在读写数据的时候需要进行非常多的定位、查询、比较、校验等一系列复杂的操作,因此远低于光速。

      但即便如此,目前普通的SSD硬盘读写速度也有300MB/s~500MB/s,差一些的高速硬盘也在100MB/s左右!那么目前DNA的合成速度有多快呢?

 

       由于DNA的合成依赖于一系列的化学反应,大肠杆菌的DNA(合成)复制速度大约是1000碱基/秒,看起来很快了,但它的速度在电磁面前根本不值一提,我们可以简单算一下合成200MB的数据需要多久—

       200×1024×1024×8 /1000/86400=19 天,也就是说现在磁盘1秒钟写入的数据,我们大约需要花差不多三周的时间才能完成。

 

        而根据统计,截至2017年全球数据大约有16 ZB(泽字节,每泽字节为10万亿亿字节,仅指数字化的数据),那么假设我们要把这个量级的数据存到DNA中,大概要花40亿年!

        到了2020年,全球数据或许将达到44ZB;当然了,上面的结果是在单个反应下的合成速度,事实上,我们可以让全世界成千上万的实验室或者机构一起来做,同时随着技术的发展可以设计出DNA大规模并行合成技术,就如同大规模并行测序,通过工程上的规模化弥补先天的缺陷,将速度提高几百万到几亿倍。

(地球的年纪都没有40亿年)

 

       但这对合成的技术就提出了更高的要求,因为这个过程不可避免的会导致我们放弃数据原有的连续性,那么该如何把这些打散的数据在读取的时候重新正确地组合到一起也成一个重要的问题。就更不要提还有实时合成记录的事。

 

—无法做到实时数据读取

        DNA存储的数据要读取出来目前是通过测序这条路。虽然相比于DNA合成,测序的问题小了很多。按照当前最新的测序技术——一台NovaSeq测序仪基本上能够在两天的时间内完成3Tb~6Tb数据的解码。成本相比于DNA合成也基本低了一百万倍左右。但谈到实际应用依然有许多问题必须解决。

 

       举个例子,我们在看电影的时候,总不能对着一台测序仪看。而刷微信、微博将会变得频繁和快速,DNA解码要如何做到实时并且保障信息的可逆回滚,这依然是一大挑战。

 

—数据随机读取仍需进一步解决

       所谓随机读取数据:就是想打开那份文件就打开哪份,想读取哪段就读取哪段,而且这个操作必须要在很短的时间内实现。而对于DNA存储怎样实现呢?

 

       2月19日,华盛顿大学和微软研究院合作发表在《Nature biotechnology》上的这篇文章“Random access in large-scale DNA data storage”,就是为了解决这一个问题。它最大的突破是设计了一种办法来解决这个随机读取的问题。

       通过文章标题我们可以看出:他们把35份相互独立的数据文件(大小约200MB)合成为DNA序列存储起来,并且精心设计特定的引物(primer,即引子,是一小段单链DNA或RNA,作为DNA复制的起始点),标记每一个文件在DNA序列上的地址(如同硬盘的存储路径一样)。

 

        这个时候,当我们要重新读取这些数据的时候能够按照需要快速跳到特定某份文件的位置上进行测读。如果我们想要获取第10份文件上的内容,如果放在从前,我们只能全部测序了才能得到,但是借助这个技术,我们可以直接跳到这份文件所在的位置上,把它测读出来。

        能够做到这一步,应该说取得了不小的进展,但也应该清晰地认识到它离真正应用还有不小的差距。

 

DNA存储技术会

代替现有的计算机存储吗

 

       实际上即便DNA存储技术成熟了,两者也将一直共存,直到被其他的介质代替了。DNA存和读的效率远不及磁盘的速度,这是自然原理决定的,一时无法解决,但它对数据保存的耐久性却很好。

       因此,DNA存储更可能的是替代磁带存储,把不需要经常使用的“冷”数据归档保存,把重要的数据进行冷存备份;但鉴于DNA本身体积小、几乎不耗电的特点,同时保存也非常方便,确实可以节省很多的社会资源。

(以上文章内容来源于虎嗅

 

关注存储市场发展

 

万博官网科技

(公众号ID:万博官网科技)

中国军工存储先行者

  1. 万博体育官网
  2. 业界资讯

地址:北京市海淀区上地九街9号数码科技广场北楼二层B-1

电话:86-10-50947666/62104316

传真:86-10-62101617

邮箱:sales@hongq.com.cn

网址:http://www.appletnet.com

招聘联系人:李艳强

联系电话:13552031952

招聘邮箱:liyq@hongq.com.cn