陳根:DNA存儲數據,是否可行?_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-06-25 10:59
文/陳根
隨着互聯網、物聯網以及各類智能設施的發展,人類已經進入了一個數據呈爆炸式增長的時代。統計顯示,目前全世界每天產生的郵件、照片、推文、視頻等數字文件超過 250 萬 Gb,全世界總數字文件高達 10 萬億 Gb。
這些數據大多被保存在數據中心裏。一個存儲量為 10 億 Gb 的大型數據中心,佔地可達數個足球場,建設和維護成本高達 10 億美元。也就是説,光是儲存這些海量數據,就需要花費巨大的空間及金錢成本。
巨大的消耗使得人類開始尋求新的方式,基於DNA的數據存儲似乎是個“潛力股”。因為與其他大多數媒介相比,DNA提供了驚人的數據存儲密度,而且相比傳統數據存儲,它具有高度穩定性**,即DNA分子半衰期超過500年,低温條件下保存可達上千****年。**
但DNA存儲並非沒有缺點。用當前的方法檢索數據不僅速度慢,且如果訪問次數太多,就必須以某種方式恢復它,這有可能導致引入錯誤。
針對這一問題,近日,麻省理工學院和Broad研究所找到了一個解決方案。其團隊創建了一個基於DNA的圖像存儲系統,它介於文件系統和元數據的數據庫之間,實現了 DNA 數據的快速準確檢索識別。
具體來説,該技術首先將每個 DNA 文件封裝到一個直徑 6 微米的二氧化硅顆粒中,每個顆粒最高容量可達 1Gb,同時每個二氧化硅顆粒都被標記上與文件內容相關的 DNA 單鏈條形碼。
接下來,研究團隊為了驗證上述方法的可行性,將獅子、老虎、貓、狗、香蕉、飛機等等 20 個不同的圖像編碼到大約 3000 個核苷酸長度的 DNA 片段中,每個文件都標有與“貓”或“飛機”等標籤相對應的條形碼。
當研究人員想要提取特定圖像時,只需添加與他們正在尋找的標籤相對應的引物,就能快速找到對應的文件。另外,引物用熒光或磁性粒子標記,便於從樣本中讀取和識別匹配信息,這種方法允許人們自主刪除所需的文件,而不會損壞其他 DNA 文件。
同時,研究人員使用了來自哈佛醫學院 Stephen Elledge 教授開發的 100000 個序列庫中的單鏈 DNA 序列,每個序列長約 25 個核苷酸。如果在每個 DNA 文件上放置兩個這樣的標籤,可以對 100 億個不同的文件進行唯一不重複標記,如果每個文件上有四個標籤,則可以唯一不重複標記 1 萬億億個不同的文件。
但是該方法檢索數據速度速度較慢,且由於技術限制,目前只適合存儲“冷”數據,也就是一些不常訪問的數據。
不過總的來説,該研究突破了 DNA 存儲技術的瓶頸,未來,隨着DNA作為存儲介質成本的下降,以及人類基因測序和相關技術的發展,或許DNA可以替代傳統的硅基存儲,成為新的數據存儲方式。