CIIS 2019 演講實錄丨汪小我:基因大數據驅動的癌症液體活檢_風聞
中国人工智能学会-中国人工智能学会官方账号-CAAI2019-11-04 19:47
10月26日-27日,由陝西省委網信辦、陝西省工業和信息化廳、陝西省科學技術廳指導,中國人工智能學會主辦,西安市委網信辦、西安市科學技術局、西安國家民用航天產業基地管理委員會、京東雲共同承辦的2019第九屆中國智能產業高峯論壇在“硬科技之都”--西安舉辦。在27日生物信息與智慧健康專題論壇上CAAI 生物信息學與人工生命專委會副主任、清華大學副教授汪小我為我們帶來了題為“基因大數據驅動的癌症液體活檢”的精彩演講。
汪小我
CAAI 生物信息學與人工生命專委會副主任、清華大學副教授
以下是汪小我的演講實錄:
今天好幾個報告人都提到了“癌症”這個話題。癌症是人類健康的頭號殺手,每年的發病率、死亡率都很高。而且,隨着人類壽命的延長,越來越多的人可能會面臨癌症的威脅。在癌症治療中,早診早治是關鍵:如果能夠在癌症的早期及時發現並針對性地進行治療,可以有效提高患者生存率,降低治療負擔。根據美國國家癌症研究所的統計報告,很多腫瘤如果早期發現,五年生存率是很高的,但是很多種癌症,例如胰腺癌、肺癌等,如果發現時已經是晚期,五年生存率會非常低。從治療的費用來説,早期的腫瘤可以通過一些簡單的切除、放化療等進行治療,但是晚期即便花很多錢也很難得到好的治療效果。因此,早發現是癌症診療領域最核心的問題之一。
現在人們已經掌握了一系列方法來檢測癌症的發生。市面上常用的方法比如X射線、低劑量螺旋CT、胃腸鏡等方式,存在準確率偏低、過程痛苦等一系列的不足。腫瘤檢測的金標準方法是組織活檢,雖然其假陽性率比較低,但是它對身體的傷害比較大,取樣的範圍也會影響檢測的結果。因此,近年來大家提出了一種新的癌症檢測方式,也就是所謂的“液體活檢”,利用身體內體液的信息對癌症進行檢測。在這個領域中,基於血液的檢測又是其中主流,比如大家現在做體檢時可能會檢測的甲胎蛋白、CA19-9等一系列癌症蛋白質標記物。這一類蛋白質標記物雖然臨牀應用很多,但是它們的檢測精確度、尤其是針對早期癌症的檢測精確度很低,並不能充分滿足臨牀應用需求。同時,液體活檢這一領域魚龍混雜,比如前幾年號稱“女版喬布斯”的Theranos公司,號稱可以用一滴血檢測上百種疾病,但是事實證明這是一個騙局,害得很多人血本無歸。因此,對於液體活檢,我們還需要更專業、更細緻的研究和分析。
實際上,血液裏面藴含非常非常豐富的物質,比如蛋白質、細胞、外泌體、核酸分子等等,攜帶了大量來源組織和疾病狀態的信息,可以很好地反映全身的動態情況。在大家比較關注的腫瘤循環細胞、遊離DNA、外泌體等跟癌症有關的血液信號中,我們認為血漿遊離DNA(cell-free DNA, cfDNA)是一種非常有應用價值的信號,因為它比較穩定,相對數量也比較多,而且裏面藴含着基因突變、拷貝數變異等等多層次的基因信息。目前,國內外已經有利用cfDNA進行癌症檢測的早期產品批准被用到臨牀上。所謂的血漿遊離DNA指的是遊離在細胞外的的碎片化DNA,這些DNA是在細胞的凋亡和壞死的過程釋放到血裏面的。1989年,人們發現cfDNA裏可能會攜帶癌細胞的突變信息;1997年,人們又在孕婦cfDNA中發現胎兒DNA,這一機制直接催生了前幾年方興未艾的無創產前檢測技術(NIPT)。除了血液之外,cfDNA在尿液、唾液等多種體液中也有分佈,而且在不同體液中,cfDNA的長度分佈等特徵會有一些細微的差別。cfDNA作為一種無創的檢測技術,應用範圍很廣,包括腫瘤的早期發現、在腫瘤發生發展過程當中指導療法和用藥,以及在後續的治療過程中進行疾病的監測、在治療完成後對腫瘤的復發進行監控等等,具有廣闊的應用前景。
傳統的cfDNA檢測,主要關注其中基因序列的改變,比如DNA的突變、拷貝數的變化以及插入到細胞基因組內的病毒基因組等等,這些信息都有可能通過分析血液裏面的cfDNA信息被檢測出來。目前已經有很多公司開發產品,通過序列模式上的改變來檢測腫瘤或其他疾病的發生,這些技術可以被籠統地稱為“第一代液體活檢技術”。然而,第一代液體活檢技術但是目前存在一些難以被克服的問題,其中最本質的難點是,正常人體裏面各個組織也會不停地向血液裏釋放cfDNA,導致cfDNA本質上是一個混合信號,其中的癌症信號十分微弱。在癌症發展早期、體積比較小的時候,cfDNA中異常的佔比有百分之一,甚至千分之一,精確提取這些微弱的癌症信號十分困難。另外就是對癌症發生的位置進行溯源的問題:在形成受精卵之後,我們全身的DNA序列信息就基本上確定了,不同組織的序列信息基本上是一致的;在這一前提下,如何確定那些異常的DNA從哪兒來,精細定位癌症發生位置,是一個很大的難題。
表觀遺傳信息可以在一定程度上解決上述的兩個問題。儘管我們體內的DNA序列信息基本一致,但在不同情況下,這些DNA會產生一系列的表觀修飾(比如DNA甲基化),在不同類型的細胞、不同組織之中,DNA表觀修飾的模式會有很大差異。另外,還有一類非常有價值的信息是cfDNA片段化模式,這一類信號也藴含着DNA的組織來源信息,能夠幫助我們找到異常DNA的來源。最近也有一系列的研究逐漸揭示這些信號的價值,比如人們發現可以利用cfDNA的全基因組甲基化測序數據揭示這些cfDNA的組織來源;也有團隊發現,從腫瘤來的cfDNA的長度會更短一些,如果對於片段長度進行精細的分析,也能夠找到其組織來源的蛛絲馬跡。
全基因組的甲基化、片段化模式在腫瘤和正常細胞之間很不一樣,其中藴含的信息很豐富,但是單一特徵並不能提供很完整的信息,幫助我們解決癌症的檢測和溯源問題。單一的特徵很難為檢測提供足夠的準確性,比如説某疾病在人羣發病率是千分之一,若檢測結果的特異性為99%,檢出率為90%,當一個人檢測結果顯示陽性時,其患病的可能性多大?不到10%。這是一個典型的貝葉斯統計問題。好在隨着高通量測序技術的發展,催生了“第二代液體活檢”技術,利用超大的數據量、全基因組的數據覆蓋和精細分子特徵的測量,可彌補利用單一或少數特徵檢測癌症的不足。如果我們去醫院體檢,抽血提取cfDNA進行全基因組測序,這個時候我們獲得的數據量可以非常大。通過對這些超大數據量進行詳細挖掘,將我們以前對單個的突變特徵檢測,轉變為利用數據和信息技術把高維度特徵(比如序列變化、甲基化差異、片段化模式改變等)整合到一起,可以做到更精準的腫瘤檢測。
利用海量數據進行癌症液體活檢,實際上是將先進的生物技術和信息技術進行有機整合的過程。為了獲取高質量的、穩定的cfDNA生物信息,我們首先對cfDNA的捕獲建庫技術進行了優化。我們通過對實驗技術進行改進,實現了僅利用3毫升左右血漿,即可在一次建庫、測序過程中同時測得cfDNA的甲基化模式和片段化模式信息。同時,我們還對這一建庫過程進行了實驗流程自動化開發,進一步提高實驗的穩定性和數據的質量。
在此基礎上,我們在全基因組的尺度下通過對高通量測序的數據進行挖掘,找到關聯的標記物,提高算法對微弱信號的檢測能力。以前的位點檢測主要針對的是基因組裏面的編碼區,然而編碼區在整個基因組裏的比例不到2%,剩下的98%被大家忽略的區域中也可能藴含着豐富的與癌症相關的信號。在這些區域中,有一類特殊的序列叫做“重複序列”,它們在傳統的研究中大部分情況下容易被忽視掉;但是重複序列是一個天然的放大器,比如説一種叫做rDNA的重複序列,在基因組上有高達400個拷貝,使它的信號更加容易被檢測到。我們從DNA甲基化的角度對重複序列進行了一系列的分析,發現rDNA這一類重複序列上的甲基化模式在腫瘤和非腫瘤的組織之間有非常明顯的差異。進一步地,我們在多種腫瘤中對rDNA的編碼區和非編碼區分別做了分析,發現在編碼區中,健康和腫瘤樣本也零星的呈現出一些差異,但是差異總體來説較小;而在非編碼區中,甲基化模式在健康和腫瘤樣本之間呈現出非常明顯的差異。我們進一步在cfDNA的測序數據中觀察這些區域的甲基化模式,發現在rDNA的非編碼區中,健康人羣血液樣本的差異很小,意味着檢測背景的噪聲很低;而多種腫瘤樣本的這一區域的信號和健康人羣又存在着很大的差異,所以這些區域似乎可以作為有效區分腫瘤和健康狀態的標記物。我們通過對這些位置進行分析,發現對很多位點的甲基化狀態,在實體瘤和外周血有非常明顯的差異;而組合10個標記物位點的信息,綜合預測癌症發生,擁有很好的分類效果。我們進一步發現,這些rDNA重複序列標記物在測序數據量較低時仍能保持很好的分類效果,顯示其具備淺測序深度下的癌症檢測能力。此外,我們通過對兩例癌症患者的數據進行分析,發現在進行手術後,其中一位患者利用我們篩選的標記物位點得到的腫瘤預測分數一直很高,而另一位預測較低;預測分數較高的患者在術後很快就產生了腫瘤的轉移而去世,而另一位患者在術後20個月仍然存活,顯示這些rDNA重複序列標記物具有一定的監測病程、監控復發的能力。
事實上,除了重複序列之外,全基因組水平上還有很多其他藴含豐富信息的區域。單個區域的信號通常很弱,那麼,我們能不能把很多信號弱的區域組合起來,綜合得到更強的信號?事實上,甲基化信號不是以單個位點的尺度獨立存在的,而是跟其周圍的序列信息存在很強的關聯。因此,我們希望利用現在已知的數據,挖掘其中的多層次信息,對cfDNA中的癌症信號進行精準分離解耦,綜合預測癌症發生。我們希望把DNA序列的信息整合到DNA甲基化的分析之中。我們將基因組的序列信息和甲基化信息進行編碼,訓練神經網絡模型,區分每一條DNA序列的組織來源。我們發現,神經網絡中呈現出來一些有趣的序列特徵,這些特徵實際上是和癌症相關的DNA序列motif一致的,顯示了這一神經網絡模型確實提取到了很多數據中有價值的信息。我們利用這一模型對癌症組織和健康組織來源的DNA片段分別進行打分,發現一部分癌症組織來源的DNA確實得分很高,顯示這一模型可以很好地區分來自腫瘤和非腫瘤區域的序列。在此基礎上,我們把多個不同DNA區域的信息整合在一起,對肝癌cfDNA的測序數據進行分析,預測肝癌的發生,取得了很好的分類效果;而且,預測模型給出來的癌源DNA比例的預測值和跟實際腫瘤大小之間呈現出比較好的相關性,顯示了利用全基因組的多位點信息整合可以取得更精準的癌症檢測效果。
在以上工作的基礎上,我們現在正在打造一個綜合的數據驅動的癌症液體活檢分析框架,從實驗端到算法端對整個數據獲取和分析的過程進行優化。在獲得測序數據後,我們首先在數據中提取多維度基因特徵,再利用多種機器學習模型,整合多重維度信息,針對應用具體場景對特徵進行整合分析,最終實現癌症的早期篩查、發生溯源、療法選擇、復發監測等目的。
血液中藴含全身的信息,具有巨大的疾病篩查潛力。而隨着高通量測序技術和人工智能技術的發展,癌症液體活檢將從傳統的單一或少數位點監測,轉變為利用人工智能模型驅動海量基因信息的深度挖掘,利用多層次信息整合突破微量信號檢測瓶頸,通過算法分離解耦癌症信號增強模型準確性,從而綜合解決癌症液體活檢信號微弱、難以溯源的難題,最終實現癌症的早期篩查和精準治療。