大數據+基因剪切,賀建奎不懂的 “DNA語法”有眉目了?_風聞
马前卒-马前卒工作室官方账号-万丈高楼平地起,NB社区在这里2018-12-17 07:53
序
上個月,賀建奎做人體基因編輯之時,有位程序員對他的行為做了比喻式闡述:
“一個上千億行代碼量的複雜系統,目前人類沒有任何人能夠讀懂代碼,但是卻有了源代碼和編輯器。這個時候有人刪掉了兩行代碼,測試跑起來了。之後他還打包發佈,並對外宣稱修復了某個bug。”
話音未落,11月27日,《自然》的《生物技術》子刊(Nature Biotechnology)上刊登了一篇題為《預測由cas9誘導的雙鏈斷裂修復產生的突變》的論文。
(Predicting the mutations generated by repair of Cas9-induced double-strand breaks)
針對目前基因編輯存在的可靠性問題,該論文闡述了一種新分析方式,使CRISPR-Cas9的基因編輯作用更可靠。可以説,人類在解讀基因編碼模式、準確改造基因的道路上邁出了重要的一步。
該研究由惠康基金會桑格爾研究所(Wellcome Sanger Institute)主導,在劍橋大學的醫學研究所、古爾登研究所、生物化學系、英國痴呆症研究所以及愛沙尼亞塔爾圖大學計算機科學系等機構參與下聯合完成。這是當今人類對CRISPR作用機制的最大規模研究,並開發了一種方法來較為精準地預測CRISPR-Cas9模式的效果。
“迄今為止,我們對CRISPR-Cas9作用進行了最大、最全面的研究,並分析了超過1億個DNA序列,以便我們研究這一過程。我們證明了細胞以相同的方式修復了特定的靶序列,證明細胞機制的作用是可重複的。“
——Luca Crepaldi博士,論文第一作者
在詳細介紹該研究工作之前,我們先來看看號稱“基因魔剪”的CRISPR工具的原理。
1**“基因魔剪”**
CRISPR是Clustered Regularly Interspaced Short Palindromic Repeats的簡寫,意為規律成簇的間隔短迴文重複。早在上世紀80年代末,隨着對基因測序的研究,人類陸續發現:多種原核生物,包括真細菌和古細菌,都有21~37bp(base pair,鹼基對)的片段在基因中不斷重複。
直到2007年,人類才初步搞清楚這種不斷重複的基因片段從何而來——這些DNA片段是細菌的獲得性免疫,説白了,這些片段是曾經入侵細菌的噬菌體病毒或外源質粒。細菌的免疫系統為記住這些“入侵者”特徵片段,便於下次遭受攻擊時快速反應,用與該特徵片段關聯的蛋白質(簡稱Cas/CRISPR
associated蛋白質),將該片段整合到自身基因的短迴文重複片段(CRISPR)中,形成免疫記憶。因此Cas基因與CRISPR序列在微生物進化史中共同進化。迄今為止,已經發現了Cas1~Cas10等多種Cas基因。
換言之,CRISPR/Cas是一套通緝/核查系統。而Cas蛋白複合體可以將這些“入侵者”的外源基因的特徵片段剪切,在其它酶協助下,將該片段插入CRISPR序列,然後在DNA自我修復機制下,將被剪成兩段的基因鏈修復成完整的一條。
以目前國際上最熱門的CRISPR-Cas9工具為例,CRISPR識別目標基因由兩個部分決定,即gRNA(嚮導RNA)與一個名為“原間隔序列臨近基序”的短DNA序列(簡稱PAM,編碼通常為NGG。N可以是A、T、G、C中任意一個。)。當gRNA於PAM“捕捉”到靶向目標後,Cas9內切酶會將對應位置的DNA進行剪切。這就是“基因魔剪”的基本原理。
CRISPR工具目前尚不完善,除了人們常説的識別錯誤造成“脱靶”亂剪,事實上就算準確剪切了目標,在DNA自我修復過程中,仍然可能會出現其它問題。DNA在對斷裂部分的自然修復機制中,會隨機在修復時增減若干鹼基,術語上叫做“微同源介導”。當然,如果DNA修復時,斷裂部分不增不減恢復原狀,CRISPR工具就沒有意義了,人們利用的就是用這種方式破壞原有蛋白質的翻譯過程,來達到阻斷某一性狀表達的效果。
但長期以來,人們對DNA修復機制在編輯中的作用都不甚明瞭。由於參與翻譯DNA片段的tRNA的基本識別單位是3個鹼基,因此如果被剪目標處,在修復過程中出現以3個鹼基倍數的增減,則意味着原DNA翻譯成蛋白質的過程仍將繼續,只不過是相比原來增減對應數量的氨基酸。而對於蛋白質這樣的大分子結構,微小的氨基酸“擾動”,可能在宏觀性狀上仍保持相似(無效),但“擾動”多了也可能會出現不可控的性狀表達。
蛋白質合成過程,注意tRNA以3個鹼基為基本識別單位
這是限制CRISPR工具走向大規模臨牀應用的最大障礙。
2****大數據實驗
桑格爾研究所是學界頂級研究所之一,這些科研人員為了尋找DNA修復規律,提高CRISPR工具的使用效率,走了一條不同尋常的道路:大樣本量實驗,大數據分析。
想要做大樣本量實驗,就要把實驗設計得足夠簡單;想做數理統計,就要把變量因素儘可能縮減。為此,要在人為控制的理想環境下,對不同的人造基因片段(DNA
constructs,構建體)進行海量重複實驗——如果在細胞中實驗,有可能受到細胞複雜環境(如自然突變)干擾,對實驗結果的可靠性造成影響。因此實驗設計如下圖(Target為目標基因,前後的Context為人工添加的片段):
既然是研究CRISPR工具使用中DNA修復機制的規律,研究的任務就是目前人類已經實驗過的各式各樣的“剪裁案例”的比對分析——也就是大量重複在線數據庫中已有的CRISPR實驗。因此,桑格爾實驗數的科研人員,在將實驗材料從細胞簡化成人造基因片段“靶子”的時候,要論證自己造的構建體,是否能有效模擬其它實驗(不然論文都發不出來)。
所以在製造構建體的時候,研究人員逐個對96個gRNA分子的223個人類基因組靶位點進行了擴增和測序,結論是一致性很好,構建體作為實驗材料,幾乎完全與細胞內的體系一致:
一致性很好
論證了實驗設計有效性後,科研人員們展示了第一部分實驗成果。在針對K562細胞(第一個人類髓性白血病人工培養細胞系,實驗研究通用材料)特徵DNA的實驗中,他們使用了此前人類已驗證有效的6568種gRNA(業內有基因研究在線數據庫)作為識別目標的嚮導,對不同目標進行了剪切,然後梳理每次剪切後的DNA修復情況,統計如下:
DNA修復結果統計來看,最常見的情況是增加了1個鹼基,其次是減少了1~2個鹼基(增加數>10或減少數>30超出測序設備識別能力)。
換成餅狀圖如下:
緊接着,對這些剪切案例進行多輪重複實驗,得出如下統計:
實驗的可重複性達到了61%。可重複、可驗證,這就意味着有規律。科研人員對這些經過重複驗證的案例做了大數據分析,得到了此前人們從來沒想到過的分析結果。
首先,在DNA修復中,存在“微同源互補結合”的現象。形象點舉個例子:“…AAATTTAAACC…”這段DNA序列中,兩組一致的“AAA”就是“微同源”,而“互補結合”,就是當上述基因片段被剪切為“…AAA”與“TTTAAACC…”後,在DNA修復階段,由於兩段“AAA”在微觀上一致,導致“…AAA”與“CC…”直接接在一起,變成“…AAACC…”。
當微同源互補結合的片段(如上述重複片段“AAA”)長度為9個鹼基的時候,根據兩段重複片段中間間隔的鹼基數量不同(橫座標軸),出現微同源互補結合的概率(縱座標軸)也不同。統計趨勢擬合成的線性迴歸如下:
將上圖推而廣之,將重複片段從3到15個鹼基長度的各種不同情況,分別做統計趨勢的線性迴歸,可整理如下:
其次,上面我們提到,在DNA修復中增加1個鹼基的情況是最常見的情況。而且驚人的是,在修復中增加的這1個鹼基,99%都是重複PAM遠端(切口的兩側中,距PAM較遠一端)的末位鹼基(比如從“…T”變成“…TT”):
而且進一步看,這99%的末端新增重複單鹼基,在末端為A、T、G、C時的分佈率不同。這意味着,增加1個重複鹼基的情況,在PAM遠端為不同鹼基時,出現概率不同(末端為T時最易出現新增重複單鹼基,為G時最不易出現該情況):
再次,上面我們也提到,除了增加1個鹼基,還有丟失1個鹼基的情況,出現概率僅次於增加1個鹼基。對於該情況,大數據統計表明,大部分是DNA切口的兩側是2個相同的鹼基,然後在DNA修復時丟失了1個(如“…C | C…”在左右合併後變成“…C…”):
最後,上面我們還提到,還有丟失2個鹼基的情況,出現概率也很高。具體統計情況如下:
圖中“|”代表CRISPR-Cas9對DNA的切口,X、Y、Z、W是指代4種鹼基在切口兩側的不同排列方式。如在丟失2鹼基樣本中,佔比達到50%的“XY | XY → XY”,舉例來説,可能就是“…AG | AG…”在DNA修復中變成了“…AG…”。
由於“XY | XY → XY”在2鹼基丟失的樣本量中佔了一半,科研人員進一步對該類現象做了統計。因為“X”、“Y”分別可以指代4種鹼基(A、T、G、C)中的1種,所以“XY”就有了4*4共計16種組合可能。該16種組合情況出現“XY | XY → XY”2鹼基丟失類型的頻次如下:
出現概率最高的是“AG”與“TG”,也就是説切口兩側同時出現該鹼基組合時,最易出現丟失其中1組的情況。
該研究中,科研人員還進一步比對了不同類型的細胞中,該剪切修復機制的可重複性。以上面提及的長度為9bp的微同源互補結合的統計趨勢線性迴歸來看,不同細胞環境下的情況如下:
3****意義
長期以來,各國科研工作者都在為提高CRISPR工具的使用效率而苦惱。前不久新聞上鬧得沸沸揚揚的賀建奎“瘋狂試驗”,之所以被學界一致批評,就是因為CRISPR工具還遠不成熟,還不滿足作為臨牀治療手段的基本安全性要求。
事實也證明,賀建奎“瘋狂試驗”的兩個案例全部失敗,沒有一個嬰兒達成CCR5Δ32基因缺失的剪切效果。
現在,通過大數據比對,機器學習分析,科學家終於找到了一些模糊規律——雖然離指導臨牀仍然很遠,但至少在CRISPR研究上,第一次有了接近基因編輯“底層邏輯”的基礎規律層面的研究方向。我們翻開了DNA編碼規則手冊的第一頁。
從語言學的案例看,失傳文字的第一批語法最難發現,之後會越來越容易。由此展望,再過十幾年,通過對基因編輯規律的不斷精細量化探索,我們應該可以利用DNA修復機制,精準地達成預期編輯效果。屆時,廣泛的基因編輯將成為推動人類前進的強力引擎——如果你願意稱編輯過基因的人類為人類的話。