陳根:用DNA儲存信息,再獲得編碼更新_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2022-05-07 10:27
文/陳根
當前,信息正在以越來越快的速度生產着,隨之而來的,就是如何有效存儲數據的問題——諸如磁盤、硬盤、閃存等磁學或光學等傳統存儲介質已經逐漸不能滿足全世界範圍內數據存儲的需要。而DNA分子則****憑藉其穩定性、高存儲密度和低維護成本,正在成為實用的新型信息存儲介質。
從儲存信息的原理來看,每一個信息其實都是一個序列(二進制的組成),可能是0和1,不管是文本,還是歌曲,都可以用這種形式存儲。DNA其實也是一個序列,DNA是ATCG幾種不同鹼基的組合。
基於此,人們就可以給每一個字母去賦值,比如,A是00,C是01,這樣就可以通過二進制來描述這個DNA的編碼,當然,合成化學技術也做到這一點。如果人們想讀取DNA的信息就可以將其放到一個序列儀上,通過測序儀來讀取出存儲的數據。
不過,對於這個過程,DNA存儲的編解碼卻一直有所侷限。2017年以前,編解碼技術都未能實現完全的技術兼容,產生序列的GC含量很大程度上還是依賴於原始數據的0/1分佈情況。2017年,美國哥倫比亞大學研究團隊開發的DNA噴泉碼幾乎解決了這一問題,但直接套用的信道編碼技術有較強的數據類型偏好性,因此在實際的存儲應用中存在較高的數據無法恢復風險的問題。

為解決這一問題,來自深圳華大生命科學研究院研究團隊受到DNA雙鏈模型的啓發,與中華文化中“陰陽”對立統一的思想相結合,研究團隊巧妙地應用於DNA編解碼系統,以兩套不同的規則,分別對兩條二進制信息進行“一對一”編譯轉換,再取兩者統一交集的部分為最終解,實現將兩條獨立的信息組合統一為一串DNA序列。
同時,研究人員通過引入篩選機制,將與現有合成測序技術兼容性不佳的序列通過預先設置的篩選條件進行過濾。根據不同的組合方法,該系統共能提供1536種不同的編碼規則組合,大大擴展了其應用場景範圍。
研究人員還通過編碼學的理論推導以及不同數據類型文件的模擬編碼,證明了該系統在保證信息密度的前提下,在數據恢復穩定性方面體現顯著的性能提升——存儲數據的平均恢復率較DNA噴泉碼現有水平提升近兩個數量級。
研究團隊測試了該系統在酵母細胞內存儲、傳代後的數據恢復穩定性。結果證明,作為載體的酵母菌株經過1000代以上的傳代,信息仍可以被完整恢復,該存儲方式接近天然DNA分子存儲物理信息密度的理論極限,每克DNA能存儲的信息量約為 432.2EB。
無疑,近年來,隨着合成生物學的快速發展,以高通量DNA合成技術和人工合成染色體的工作為代表,標誌着人類對DNA的設計、合成、編輯和讀取能力已經進入到一個嶄新的時代,而每一次技術的更新都將在海量數據長期存儲的新型介質研究中起到積極的推動作用。