转载

微软黑科技:DNA存储技术催生方糖大小的数据中心

  北京时间 4 月 12 日消息,据科技网站 Computerworld 报道,微软和华盛顿大学研究人员已经展示了利用人工合成 DNA 作为数据存储介质的技术。研究人员表示,如果这一技术成熟到适合主流应用,装备当今存储密度最高的存储设备、沃尔玛超市般大小的数据中心,就可能“瘦身”到一块方糖大小,“我们认为,考虑把 DNA 作为存储介质,探索相关系统设计问题的时机已经成熟”。

微软黑科技:DNA存储技术催生方糖大小的数据中心

  DNA 存储密度惊人

  研究团队成功地将 4 个图片文件的数据编码为人工合成 DNA 片段的核苷酸序列。更重要的是,他们能实现逆过程——从更大的 DNA 池中取回正确的核苷酸序列,重建图像,而且没有丢失 1 个字节的信息。另一项试验涉及对视频文件的编码和读取。

微软黑科技:DNA存储技术催生方糖大小的数据中心

  DNA 存储技术

  华盛顿大学计算机科学和技术副教授、论文共同作者路易斯·塞兹(Luis Ceze)在一份声明中说,“生命产生了神奇的 DNA,它能高效地存储与基因和生命活动有关的所有信息,而且非常紧凑,非常‘耐用’。我们将把 DNA 用于数据存储——图像、视频、文档,保存时间可以长达数百或数千年。”

  DNA 存储技术研究进展神速

  对 DNA 数据存储技术的研究进展神速。1999 年,研究人员利用 DNA 存储技术编码和恢复了一条长 23 个字母的信息。到 2013 年,欧洲分子生物学实验室-欧洲生物信息学研究所的科学家,把美国黑人运动领袖马丁·路德·金(Martin Luther King)《我有一个梦想》演讲的 mp3 文件编码在 DNA 中。

  研究人员在发表在《自然》上的论文中称,这种编码方法使得约一杯 DNA 能存储至少 1 亿小时的高清视频。

  据英国研究人员称,存储在 DNA 链中的数据能保存数万年。

  在 DNA 存储技术中,读取 DNA 相对简单,主要障碍在于写 DNA。DNA 存储技术存在两个难点:其一,目前的方法只能合成短链 DNA;其二,写和读 DNA 都容易出错。

  微软和华盛顿大学研究人员称,他们已经开发了“一种新颖的方法”,把数据中的“1”和“0”字符串转换成 DNA 序列中的 4 种碱基——腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。

  为了访问存储的数据,研究人员在 DNA 序列中编码了相当于邮政编码和街道地址的寻址信息。聚合酶链反应(以下简称“PCR”)技术帮助研究人员更轻松地识别他们需要查找的“邮政编码”。

  研究人员然后利用 DNA 测序技术,“读取”数据,并通过利用“街道地址”对数据进行整理,将数据恢复成原来的视频、图像或文档。

  研究人员表示,“DNA 是一种有吸引力的潜在数据存储介质”,理论上其存储密度比磁带高出 8 个量级,一个可以拿在手里的磁带盒存储容量高达 185TB。

  微软和华盛顿大学研究人员也证实了人工合成 DNA 的“长寿”,称即使在恶劣环境中其半衰期也超过 500 年,磁带保存时间为 10-30 年,硬盘为3-5 年。

  还不够完美

  美国研究人员强调了提高存储密度的紧迫性。市场研究公司 IDC 和存储设备厂商 EMC 在《The Digital Universe》研究论文中称,到 2020 年,包含在全球计算机、历史档案、电影、照片、企业系统和移动设备中的数据量将达到 44 万亿 GB,“是 2013 年的 10 倍。尽管并非所有信息都需要保存,但世界生成数据的速度快于存储容量的增长”。

  要进入商用阶段,DNA 存储系统还有一些问题需要解决。首先是 DNA 合成和测序还远不够完美,DNA 存储系统的一个关键部分是开发一种适当的编码技术,通过增加冗余度提高容错能力。

  其次,DNA 存储系统中随机存取数据还是个问题,读取延迟远长于写入延迟。目前的技术只能批量读取数据,即使只从存储系统中访问一个字节的信息,系统也必须对整个 DNA 池进行测序和解码。

微软黑科技:DNA存储技术催生方糖大小的数据中心

把数据编码为 DNA 序列

  研究人员已经提出了改进随机数据存取的方法,即利用 PCR 只扩增希望读取的数据,并对相应的 DNA 序列测序。这种方法既能提高数据读取速度,也无需对整个 DNA 池进行测序。

  塞兹称,“这是我们在数据存储方面向大自然学习的一个范例。”

正文到此结束
Loading...