AlphaFold3:生物分子預測的大一統工具?_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!21分钟前
2024年5月8日,谷歌DeepMind AlphaFold團隊聯合Isomorphic Labs公司在《自然》(Nature)雜誌上發表了題為“Accurate structure prediction of biomolecular interactions with AlphaFold 3”的論文[1],推出了全新的能夠準確預測蛋白質、DNA、RNA、小分子配體結構以及它們相互作用模式的結構預測工具AlphaFold3,並期望能夠轉變科學界對於生物世界以及藥物發現的理解。
撰文 | 劉安吉
在每一個植物、動物和人類細胞內部,都存在着數十億個分子機器。這些機器由蛋白質、DNA及其他分子組成,但沒有任何單一部分可以獨立工作。只有觀察它們如何在數百萬種組合中相互作用,我們才能開始真正理解生命的過程。
AlphaFold3是一個具有革命性的新模型,它的革命性體現在兩個方面:廣泛性和準確性。首先,在先前的結構預測工作當中(包括AlphaFold2),結構預測工具往往只針對某種特定的生物分子,比如蛋白質結構預測或者RNA結構預測,但AlphaFold3具有預測幾乎所有生命分子的結構和相互作用的功能,其廣泛性可見一斑。其次,在實現了廣泛性的同時,對於結構預測的準確性也有長足的進步,對於蛋白質與其他分子類型的相互作用,與現有預測方法相比,實現了至少50%的改進,而對於一些重要的相互作用類別,AlphaFold3的預測準確度實現了翻倍。
目前,AlphaFold3向科學界免費開放了AlphaFold Server,其中包含了AlphaFold3的大部分功能,供科學家進行結構預測。Alphafold Server的鏈接如下:https://golgi.sandbox.google.com/about。總體來説,Alphafold Server的界面使用簡單,可視化程度良好,用户可以在網站上提交各種不同的生物分子的序列,輕鬆地進行結構預測。網站的序列輸入界面與結果展現界面如下:
(上)AlphaFold Server序列輸入界面;(下)AlphaFold Server結果展示界面
本篇文章將解答三個問題:
1. AlphaFold3做了哪些改進?
2. AlphaFold3的預測結果提升大嗎?
3. AlphaFold3還有哪些需要改進的問題?
AlphaFold3的改進
在2021年7月15日,谷歌DeepMind AlphaFold2的論文發表在《自然》雜誌上[2]。AlphaFold2作為基於深度學習的結構預測工具,能夠以很高的準確度預測蛋白質的結構。蛋白質的功能主要取決於蛋白質的結構,確定蛋白質摺疊成何種形狀被稱為“蛋白質摺疊問題”,這一問題在過去50年裏一直是生物學中的一個重大挑戰。而AlphaFold2在結構預測比賽CASP中,取得了令人眼前一亮的成績,不僅展現了人工智能在結構預測上的巨大潛力,也掀起了使用人工智能對蛋白質進行建模的浪潮,使得蛋白質建模和設計的應用範圍大大擴展。
(左上)歷屆CASP冠軍表現 (右上)AlphaFold2預測結果與實驗結果的對比
(下)蛋白質巨大的搜索空間丨圖片來自AlphaFold官網:https://deepmind.google/technologies/alphafold/
在AlphaFold推出之後,整個領域出現了井噴式的繁榮,很多後續的方法都或多或少採用了AlphaFold2的思想或者技術。比如有研究發現簡單地改變輸入可以實現更好的預測結果[3],也有研究發現,在蛋白質相互作用預測上,重新訓練一個AlphaFold2也可以實現很不錯的結果[4]。
AlphaFold2架構圖[2]
AlphaFold3架構圖[1]
AlphaFold3也是基於AlphaFold2進行了改進,目標則是將針對不同生物分子的工具統一到一個神經網絡中,實現單一神經網絡框架預測所有生物分子結構。基於這個目標,研究團隊做了如下改進,以便包含更廣泛的化學結構並提高數據的使用效率:
1. 減少了多序列比對(Multiple Sequence Alignment, MSA)模塊的數量:AlphaFold2後續的研究發現,AlphaFold2的運算時間和資源佔用大部分都是由MSA模塊導致的。
2. 將AlphaFold2中的編碼器EvoFormer用更簡單的編碼器Pairformer代替,減少對MSA信息的依賴,更多地依靠pair信息。
3. 引入了擴散模塊(Diffusion Module),代替了AlphaFold2中的結構模塊(Structural Module)。新的擴散模塊可以直接預測原子座標,而結構模塊需要給予特定的氨基酸框架和側鏈扭轉角進行操作。擴散過程的多尺度特性還使得AlphaFold3能夠消除立體化學損失,並在網絡中減少對鍵合模式的特殊處理,從而輕鬆適應任意化學成分。
AlphaFold2的EvoFormer架構[2]
AlphaFold3的PairFormer[1]
AlphaFold3的預測結果
AF3能夠從輸入的聚合物序列、殘基修飾和配體SMILES預測結構。下圖中展示了一系列示例,突出了AF3在許多生物學重要和治療相關模式上的泛化能力。
(a) 蛋白質-核酸複合體 (b) 糖基化修飾 (c)抗體-多肽複合體 (def)小分子抑制劑-蛋白複合體
為了衡量AF3在預測不同生物分子結構上的表現,研究者分別在蛋白質-配體相互作用、蛋白質-核酸複合體、RNA結構、共價修飾、蛋白複合體四個任務上對AF3的準確性進行了測量。
對於蛋白質-配體相互作用預測,AF3在PoseBusters[5]基準數據集上進行測試。在蛋白質-配體相互作用任務上,主要有兩類模型:一類僅使用蛋白質序列和配體SMILES作為輸入;另一類還額外使用已解決的蛋白質-配體測試結構的信息。AF3只採用第一類序列信息,傳統的分子對接利用第二類蛋白配體結構信息,但是AF3的表現卻遠超傳統的對接方法(如上圖中的Autodock Vina[6])。今年3月,David Baker實驗室推出了RoseTTAFold-All-Atom(RFAA)模型[7],也是利用深度學習的方法,對各種生物大分子的結構進行預測。但是,在PoseBuster數據集上,AF3的表現比RFAA要優秀很多。
對於蛋白質-核酸複合體結構預測,目前最好的預測方法是David Baker實驗室開發的RoseTTAFold2NA[8]。從下圖中可以看出,AF3在蛋白質-RNA複合體結構預測任務和蛋白質-雙鏈RNA結構預測任務上,表現都比RoseTTAFold2NA好很多。
對於RNA結構預測,目前比較好的基於人工智能的方法有RoseTTAFold2NA和AIchemy_RNA[9](後者是CASP15競賽中最好的基於人工智能的方法)。AF3在10個公開可獲得的CASP15競賽中的RNA靶標上進行了測試,雖然沒有達到由人類專家輔助的AIchemy_RNA2[10]方法,但是取得了比RoseTTAFold2NA和AIchemy_RNA更好的結果,如上圖所示。
對於共價修飾,例如鍵結合的配體、糖基化、蛋白殘基的修飾等,AF3也能得到很好的預測。
對於蛋白質複合體預測,先前的AlphaFold multimer4的結果有些許不盡如人意;在AF3中,蛋白質複合體的預測準確度也獲得了提高。在蛋白質複合體領域,AF3更聚焦於蛋白質-抗體複合物的結構預測,在這方面的預測精確度有了極大的提升。
AlphaFold3的侷限性
不可否認,AF3在結構預測方法取得了很大的突破,但同時也存在一些侷限性。侷限性主要體現在四個方面:立體化學 (stereochemistry)、幻覺效應 (Hallucinations)、動態性 (dynamics) 以及對某些目標的準確性。
在立體化學 (stereochemistry) 方面,主要有兩方面的問題。首先,AF3模型輸出的手性(chirality)不總是對的。儘管模型輸入的蛋白質的手性是正確的,並且模型在訓練過程中對手性錯誤添加了懲罰項,但在PoseBuster這個數據集上進行預測,還是會出現手性出錯的問題(4.4%)。第二類立體化學違規現象是模型有時會在預測中產生重疊(“衝突”)原子的傾向,對於具有同源性的蛋白,這種結構上的重疊更加常見,有時會觀察到整條鏈的重疊。在模型訓練過程中,對重疊進行懲罰會減輕輸出結構中的重疊現象,但是無法完全消除。
AF3預測蛋白中的重疊現象
因為AF3引入了擴散模型,而擴散模型很容易出現幻覺效應 (Hallucinations)。對於AF3來説,蛋白質中的無序區會出現虛假的結構序列。雖然這些幻覺區域通常被標記為非常低的置信度,但它們可能缺乏AlphaFold 2在無序區域產生的典型帶狀外觀。為了在AF3中鼓勵類似帶狀的預測,研究者使用了從AlphaFold 2預測中的蒸餾訓練,並且添加了一個排名項,以鼓勵結果顯示更多的溶劑可接觸表面積。
AF3中的幻覺效應
對於蛋白質結構預測任務説,通常預測的結構是靜態的結構,然而在生物體系中,蛋白質常常呈現動態的結構。在AF3中,這個問題仍然存在,AF3還是隻能預測蛋白質的靜態結構。
對於一些特定的情況來説,在給定配體的情況下,預測蛋白質的構象可能並不能和配體很好地對應。例如,E3泛素化連接酶不結合配體的情況下是打開的構象(open conformation),在結合配體的情況下是關閉的構象(close conformation),但是不管是否給定配體,AF3只能預測得到關閉的構象(close conformation)。
AF3預測蛋白中無法產生動態性
所以,雖然AF3在建模準確率方面有很大的提高,但是還是有很多靶點蛋白很難進行建模。想要得到最高準確率的結果,最好的方法是生成大量的預測結果,並對這些預測結果進行排序。正如下圖所示,隨着生成的預測結構的增加,預測結果的準確度一直在提高,甚至到了1000次,曲線似乎還沒有收斂。
討論
分子生物學的核心挑戰是理解並最終調控生物系統的複雜原子相互作用。AlphaFold3在這方面邁出了一大步,證明了在統一的框架中準確預測各種生物分子系統的結構是可能的。AlphaFold3減少了對MSA的依賴,所以可以很快完成結構預測。AlphaFold3也有一些侷限,之後的提升一方面需要計算機領域的進展,另一方面也需要實驗結構解析方面的進步,例如冷凍電子顯微鏡(Cryo-EM)和冷凍電子斷層成像(Cryo-ET)。實驗解析技術的進步會帶來更多高質量蛋白質複合體結構,而這些蛋白質複合體結構可以作為訓練數據,進一步提高模型的泛化能力。所以,實驗技術的發展和計算方法的發展是同步進行的,兩者齊頭並進,才能帶動我們更好地理解生物世界,開發出具有更好療效的藥物。
原文鏈接:
https://www.nature.com/articles/s41586-024-07487-w
AlphaFold Server鏈接:
參考文獻
[1] Abramson, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature (2024) doi:10.1038/s41586-024-07487-w.
[2] Jumper, J. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).
[3] Bryant, P., Pozzati, G. & Elofsson, A. Improved prediction of protein-protein interactions using AlphaFold2. Nat. Commun. 13, 1265 (2022).
[4] Evans, R. et al. Protein complex prediction with AlphaFold-Multimer. Preprint at https://doi.org/10.1101/2021.10.04.463034 (2021).
[5] Buttenschoen, M., Morris, G. M. & Deane, C. M. PoseBusters: AI-based docking methods fail to generate physically valid poses or generalise to novel sequences. (2023) doi:10.48550/ARXIV.2308.05777.
[6] Trott, O. & Olson, A. J. AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. J. Comput. Chem. 31, 455–461 (2010).
[7] Krishna, R. et al. Generalized Biomolecular Modeling and Design with RoseTTAFold All-Atom. http://biorxiv.org/lookup/doi/10.1101/2023.10.09.561603 (2023) doi:10.1101/2023.10.09.561603.
[8] Baek, M. et al. Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA. Nat. Methods 21, 117–121 (2024).
[9] Shen, T. et al. E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D Structure Prediction. (2022) doi:10.48550/ARXIV.2207.01586.
[10] Chen, K., Zhou, Y., Wang, S. & Xiong, P. RNA tertiary structure modeling with BRiQ potential in CASP15. Proteins Struct. Funct. Bioinforma. 91, 1771–1778 (2023).
本文經授權轉載自微信公眾號“北京生物結構前沿研究中心”。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。