貴州華大生命大數據研究院執行院長金鑫:基因大數據價值與未來
作者:数据观
7月29日,以“賦能實體經濟,推動產業創新——大數據與實體經濟融合發展”為主題的2020“數博對話”活動成功舉辦。貴州華大生命大數據研究院執行院長金鑫在本期對話活動中以《基因大數據價值與未來》為主題進行了分享。

基因信息與生老病死密切相關
金鑫認為,一方面,人是數據的生產者,生活中不管是打車、買東西,還是其他活動,無時無刻都在產生數據。另一方面,每個人也是信息的載體,這個信息就是構成生命最基本的基因。基因存在於每個細胞裏,這是跟每個人都密切相關的東西,但在過去很多年裏,它是數字化程度比較低的一種數據類型。
我們每個人都是基因信息的載體,這個載體是承載在細胞裏。金鑫介紹:“我們身體裏會有多少細胞?有人做過測算,細胞的數量在50萬億個,如果把我們身體裏的細胞平鋪的話,它可以覆蓋1600米的沙灘。每個細胞裏有多少DNA?人的基因組序列的長度大約是30億個鹼基。地球到太陽之間的距離是一個天文單位,如果把人體裏所有細胞的基因序列連起來的話,它的長度通過計算大約是300多個這樣的單位,遠遠超過了目前的旅行者1號(1977年發出的飛行器,到現在也沒飛到),這裏面的信息量可想而知。”
更多的數據帶來更多的發現。金鑫進一步談到,每個人都有重大的信息量,這些信息跟我們的生老病死是密切相關的,尤其是跟我們密切相關的健康疾病因素,有遺傳的基礎、健康的基礎等。如果我們知道了未來多長時間內有多大的概率會得某種病,那就可以治療或者是防控,或者在早期能發現它也可以進行合理干預,比如“三高”的控制等。同時,在這個過程中,需要大數據去回答問題和消除不確定性,因為如果只研究一個人的信息量,這是不匹配的,如果把他的原始數據估出來,一個人的數據在今天至少要達到100G,這個人已經被確診為糖尿病或者沒有,這是在海量數據中海底撈針。但如果有很多人的數據,百萬量級的層級裏面就能建立聯繫。

上圖是人類將近20年以來所發現的跟各種各樣人類疾病有關係的基因位置和區域。金鑫介紹,這張圖上,人類1號染色體一直到22號,還有性染色體,圖上每一個圓圈就代表了一種疾病或者我們所關心的人體的表型。正因為基因跟幾乎任何的疾病都有關係,所以非常希望能更進一步地瞭解它們深入的聯繫。
基因大數據時代來臨
金鑫表示,基因組是非常龐大的序列組合,有時候會發生更復雜的變化,比如有一段少了,有一段增加了,有一段換了位置,有一段貼到了別的地方……這就使現在的技術逐步地去研究它跟疾病之間的關係。在這個背景下,各個國家都發現了這中間藴含的巨大的價值和可能性,如果我們把生命本身解碼,把它跟更多的數據連接起來,更多的價值就能連接起來。這個過程中,希望能夠通過大量的數字化,生命的大數據就能產生,去解決怎樣拓寬信息和數據來源的問題。

在過去這些年,每一個人的數據是單獨來看,它的價值是沒有得到釋放的,所以在這中間有很多關於科學倫理的討論,但現在這個價值正在逐步得到顯現。

金鑫舉例介紹,英國的生物銀行(UK BioBank)共享50萬英國人基因數據,這50萬人現在都已經有了基因數據,這個基因信息就逐步開始跟各種各樣類型的數據產生聯繫。在這個過程中,做了50萬的基因信息之後嚐到了甜頭,尤其是在過去幾年有大量的數字化成本,並不是通過英國的科研經費和科技部門,而是來自產業部門,數據價值真正得到使用的部門。有好幾家國際領先的製藥公司投入一定的經費來支持這個項目,把中間的基因數據生產出來。尤其到了最近,他們完成了一期之後已經開始啓動第二期,這中間有大量來自產業界的投入。
為什麼產業界會參與做基因數據,尤其是製藥企業。金鑫分析道,開發一個新藥可能要花十億美金,但只有很低的可能性能成功。如果在開發的過程中,有來自基因數據的支持,這個藥成功的概率就會提高一倍,這中間能夠帶來的收益非常可觀。
金鑫介紹,這中間藴含着機會,也藴含着挑戰。美國和英國做了很多,是不是隻要大家使用他們的研究成果,繼續往後做就好了?大家發現不是這樣的,雖然今天在世界上生活的都同一種人,叫現代人,但是人羣和人羣之間存在差異,地域與地域之間存在差異,累積起來帶來的預測效果差別是非常大的。有人去做了統計,彙集了到今天為止已經發表的跟基因和疾病健康相關的所有研究成果,按照這個研究項目看,50%以上是來自於歐洲人羣。如果大家把過去所有做了基因信息的人跟這個數據庫比對,會發現將近80%的人是來自歐洲。這給我們非常大的提醒,如果只是依賴於別人完成的成果,很有可能會錯過接下來一波信息革命在健康醫療產業裏面給我們帶來的機會。
過去幾年,包含華大基因在內的多個國內研究團隊做了很多跟中國人羣相關的基本的研究,通過這樣的工作能夠去畫出中國人遺傳基因的圖譜,類似於這樣基本信息的研究,可能對於遺傳病的防控有更好的作用。
基因大數據研究的工具突破
“最早做人類基因組計劃的時候,人類科學家做了10年花了30億美金才做了一個人的基因組,到後來我們只需要花三五年時間,在幾個億美金的情況下就可以完成30萬人。到今天,完成一個人的基因組,它的成本已經低於500美金,這個成本還在繼續下降。”金鑫希望,未來成本能降到100美金,這樣更多的人才會用到它。
開展基因大數據研究,需要工具的支撐。金鑫介紹,以測序技術為代表的組學技術發展日新月異,現在開發出了基於基因納米球的技術。

圖中紅色的線是每檢測一個人的基因成本,每一次它都會快速下降,到了今天已經接近幾百美金的水平,未來會在100美金之下;黃色的線是摩爾定理,就是芯片的速度和成本,基因測序成本的下降速度比摩爾定理還要快。
在這個過程中,在2013年以前,全世界只有兩個國家能生產到科研級別、臨牀級別的基因測序,就是英國和美國。到2009年,英國這家公司把技術賣給了美國,所以英國也沒有這個能力了。2013年美國進一步研發,到今天為止,世界上還是隻有兩個國家、三家公司能做基因測序儀,華大是中國唯一一家。

“從我們開始做基因測序儀的研發,到今天經歷了六七年時間,我們最原始的版本已經迭代了很多基因測序儀,開發了很多應用,比如地中海貧血基因的變化,到現在最高通量的全世界每天產生7Tb數據的基因測序儀已經開發成熟了,這為我們國家在未來有成功可控的技術奠定了基礎。”金鑫介紹道。
基因本身是一個信息載體,過去做的很多工作都是可以從基因序列裏讀出需要的信息,將這個信息跟疾病信息聯繫起來。金鑫表示,DNA本身也可以作為一個載體,我們存DNA只需要保存在乾燥穩定的環境裏,它就可以長期保存。如果要複製它,可以把這段基因導入到一段細菌裏,微生物的生長是指數級的,很快就可以達到數量,寫在硬盤或者閃存裏可能都不如把它寫在某種生物裏,把它一代一代傳下去。我們攜帶信息是不是還有別的意義?是不是真的有所謂的造物主的信息存在?它的信息密度非常高,一個細胞裏可以存30億個鹼基的信息。有人測算過,如果用一公斤的DNA,如果我們把它用合理的編碼規則的話可以存下今天全世界所有的數據,這樣的存儲密度是超過今天所有的技術的,這樣的存儲技術是億萬年進化來的結果。
一個人的基因數據有很多,那一個人是不是隻做一次基因測序就可以了呢?金鑫表示:“我們的身體、細胞其實是像馬賽克一樣,這幾年新起了一個技術叫單細胞測序,今天可以做到對單個細胞進行精細定位,這在很大程度上提高了我們對於生命信息理解的更清晰的分辨率,給大家帶來了更多的對生命的理解。我們身體裏的細胞是非常多的,而且有很多我們以前不知道的細胞,比如生物智能到底是怎麼回事,到今天依然是無解的。以前研究大腦非常困難的就是它裏面這麼多細胞這麼的不同,我們怎樣去觀測它,我們現在已經啓動了這個項目,對小鼠的腦細胞進行單細胞測序,每一種顏色就是代表了不同的細胞類型,我們有更多數據、更多細胞、更大的信息,我們可以去重構和還原小鼠腦細胞的聯繫,這樣我們更好的理解了生物智能,反過來對於人工智能技術會有更大的幫助。”
釋放基因大數據的價值
研究基因大數據,也離不開社會經濟和健康醫療發展,因為生命信息基因數據只是整個健康醫療大數據中的一部分,它是非常核心的一部分。

如果把整個健康醫療數據的圖形畫出來,大家會看到未來在把基因數據和健康醫療大數據連接起來的時候,這中間會有更多的價值和更多的機會。這裏面數據的體量層面也可以顯然看到,基因數據和影像數據是最大最重的。

在價值的實現方面,金鑫還提到,更好地瞭解基因信息,能更精準更快速的開發出來新的藥物。除此之外,基因信息在保險業過中也能發揮非常多的作用。如果能瞭解更多的基因信息,對購買保險的人來説,就能預知未來身體健康情況,能對抗更多的風險。反過來,保險公司掌握這些數據,對核保的條件也能更精準,每個人都能用基因數據來做健康管理。
