微软研究用DNA做硬盘，成功存储200M数据

发表于 2018-02-22

DNA 被看作更轻便、保存时间更长的数字信息存储载体，技术进展很快。电影、GIF 动图、文学名著《战争与和平》都被放入到 DNA 上，存储的数据规模也越来越大。

技术层面，在 DNA 上存储、解码数字信息是这样的：研究员需要把数据从0和 1 转换成形成 DNA 的碱基：腺嘌呤（A）、胸腺嘧啶（T）、鸟嘌呤（G）、胞嘧啶（C），再通过合成 DNA 存储这部分的数据。当数据需要被取回时，研究员通过对 DNA 进行测序，将数据重新从碱基还原成 0 和 1。

随着数据存储规模的扩大，相应的，确定 DNA 上存储数据的位置，以及还原数据的技术也在跟进。

微软最近和华盛顿大学的分子信息系统实验室（MISL）合作，开发了新的检索 DNA 序列、解码的技术。他们将 35 个文件、总共 200.2 MB 的数据存储到了 1300 万的 DNA 寡核苷酸（只有 20 个以下碱基的短链核苷酸）上，并成功在一个有 1030 万条 DNA 序列的池里找到、解码这些数据，中间没有发生数据丢失。

这些研究员选择存储在 DNA 上的数据包括下列这些：OK Go 乐队的歌曲 This Too Shall Pass 的高清 MV、经典音乐精选集，《世界人权宣言》的 100 种语言版本、CropTrust 存储了斯瓦尔巴全球种子库的数据库等。

存储了 200.2 MB 的数据到 DNA 上

该论文发表在《自然-生物技术（Nature Biotechnology）》期刊上，微软官网也附上了该论文。

他们使用的是一种被称为“随机存取（random access）”的技术。这不是新技术，但微软和 MISL 实验室在使用的数据量和解码准确度上都有所提升。

所谓的 DNA 数据随机存取，类似于电脑、手机在调取照片、歌曲时所用的 RAM 技术。略有差别的地方在于，电脑、手机在调用数据时，这些数据存储的位置不影响调用速度，而且调用速度很快。但在 DNA 上取回数据，暂时只能做到存储位置不影响，解码数据的速度还没能提升。

取回 DNA 上存储数据上的一般流程是这样的，解开 DNA 双螺旋结构、复制存储数据的序列，然后转换这些数据。为了获得所需数据，常常需要对整条 DNA 进行测序。

DNA 上的随机存取技术，通常是引物库（引物指一小段 DNA 或 RNA）配合聚合酶链式反应（PCR）一起使用。加在每个 DNA 序列的两端的引物可以帮助更快确定数据存储的位置，在解码时，研究员不需要对整条 DNA 进行测序，PCR 通过反复复制想读的序列帮助加快解码速度。

DNA 上随机存取的流程

在微软和 MISL 实验室的实验中，研究员设计了新的引物库，解码、还原数据的算法，增加了储存、解码数据时的容错能力，最终在取回数据时没有出现数据丢失。解码器和算法开发这方面上有微软比较多的贡献。

微软和华盛顿大学在 DNA 存储、解码数据的技术上合作了多个项目，微软的研究员 Karin Strauss 也是领导 MISL 实验室的管理者之一。例如 2016 年，两家公司合作，把《战争与和平》等 100 部经典作品塞进了 DNA 内。

这算是微软对未来存储技术看中的方向之一，例如用 DNA 取代数据中心里的硬盘。Karin Strauss 曾说：“公司有兴趣了解，我们是否能创造一种、端到端、自动化、可用于企业存储、基于 DNA 的信息存储系统。”
作为存储介质，DNA 相比硬盘、TF 卡等都要轻便，保持在干燥、较低气温环境下，可以保存很久，这些都是优势。但 DNA 合成成本、花费的时间成本都相当高昂。微软存储 100 部经典作品、总共 200 MB 的数据到 DNA 上，花费了 15 亿个碱基，以 Twist Bioscience 针对企业用户每个碱基卖 0.04 美分计算，也需要 6000 万美元。

加州大学伯克利分校的博士后研究员 Reinhard Heckel 认为，虽然这项技术的成本在持续降低，但能否低于磁带还很难说：“为了让人们真正用起来，你需要把东西存储在比磁带更便宜的载体上，这是很难的。”

		自动登录	找回密码
密码			立即注册


	选中篇: 置顶\|

选中 篇:

微软研究用DNA做硬盘，成功存储200M数据

选中篇: