DeepMind與Meta科學家推動人工智能與生物學的融合——《華爾街日報》
Steven Rosenbush
AlphaFold團隊成員在德國海德堡歐洲分子生物學實驗室前合影。AlphaFold的訓練數據來源於公共資源庫,包括由EMBL歐洲生物信息學研究所管理的數據庫。圖片來源:Massimo del Prete/EMBLMeta Platforms公司最新發布的能預測數億種蛋白質結構的工具,是計算生物學領域突破性進展的最新例證,這一突破始於幾年前Alphabet公司旗下的一項研究。
一些科學家預計,這類人工智能新系統將加速生命科學領域的研究,尤其是藥物開發。
谷歌母公司Alphabet旗下位於倫敦的DeepMind Technologies首次利用人工智能解決了一個困擾科學家50年的難題,替代了速度更慢、成本更高的實驗室技術來測定蛋白質的三維結構。這些結構對藥物和疫苗開發、氣候變化研究等領域至關重要。DeepMind在7月份表示,其於2021年7月首次發佈的AlphaFold2人工智能系統已被用於預測科學界已知的幾乎所有蛋白質結構。Meta在3月16日表示,其ESMFold系統已用於解析更龐大蛋白質組的結構,包括最難理解的那些——存在於土壤微生物、深海微生物以及人體內部的蛋白質。
Facebook母公司Meta的ESMFold採用了一個大型語言模型,該模型能夠基於與OpenAI的ChatGPT相同的技術,從幾個字母或單詞預測文本。DeepMind則設計了一種採用雙神經網絡的不同方法。Meta表示其方法比DeepMind快60倍,但準確性較低。
“這些蛋白質極其多樣化,人們對它們知之甚少。要達到這個規模並超越它,可能涉及數十億個序列,預測速度的突破至關重要,“Meta AI研究科學家亞歷山大·裏夫斯説。通過採用大型語言模型,Meta能夠在兩週內對超過6億個蛋白質進行預測,他説。
“藉助AI,現在可以深入觀察蛋白質的結構和分子尺度上自然界的驚人複雜性,“他説。
自DeepMind取得突破以來,AI在生物學中的應用興趣激增。
“AlphaFold是蛋白質結構預測的巨大進步。他們的進展激勵了我們,引發了一波使用深度學習的新浪潮,“華盛頓大學生物化學家和計算生物學家大衞·貝克教授説。
“ESMFold的優勢在於它非常快,因此可以用來預測比AlphaFold更大規模的蛋白質結構,儘管準確性略低,類似於RoseTTAFold,“貝克博士説,他指的是2021年從他的實驗室誕生的一個工具。
DeepMind開源了AlphaFold2的代碼,使其可以免費供社區使用。科學界已知的幾乎所有蛋白質——約2.14億種——都可以在公開的AlphaFold蛋白質結構數據庫中查詢。Meta的ESM宏基因組圖譜則包含了6.17億種蛋白質。
投資生命科學技術的成長型股權公司Biospring Partners聯合創始人詹妮弗·盧姆表示,過去研究人員需要花費數月甚至數年時間才能確信自己理解了某種蛋白質的結構。“AlphaFold大大縮短了這一過程,使團隊能將時間轉移到下游的研究和產品開發上,進入其他增值領域。“她説。
AlphaFold系統的研發經歷了兩個截然不同的階段,體現了DeepMind將學術研究的嚴謹性與科技初創企業文化相結合的獨特方式,以應對世界上一些最大的科學難題。
DeepMind AlphaFold團隊首席科學家約翰·詹珀表示,轉折點出現在2018年,當時DeepMind聯合創始人兼首席執行官德米斯·哈薩比斯在一次AlphaFold會議上詢問團隊,是應該解決尋找更好預測蛋白質結構方法的問題,還是應該轉向其他課題。
“那是我在DeepMind參加過的最令人不安的會議之一,“38歲的詹珀博士説。他於2017年在芝加哥大學獲得理論化學博士學位後加入該實驗室。
2018年,AlphaFold1在兩年一度的CASP實驗中取得了最佳成績,該實驗是科學家們測試各種蛋白質結構預測方法的平台。但DeepMind對此並不滿足。
2018年CASP結束後,AlphaFold團隊投入大量時間嘗試改進AlphaFold1的不同方法,通過測試驗證這些方法能否達到實驗室測定蛋白質結構的精確度。
這個15至18人的跨學科團隊中,大部分成員擁有機器學習背景,其他人則具有生物學背景。“但在項目推進過程中,他們都…實質性地成為了生物學家,“Jumper博士説。AlphaFold的訓練數據來自公共資源庫,包括歐洲分子生物學實驗室下屬歐洲生物信息學研究所管理的數據庫。
Jumper博士表示,團隊持續工作到2019年,他才真正確信他們能夠完成使命。
據Jumper博士介紹,傳統上生物學家需要藉助X射線等技術,通過實驗室手段解析單個蛋白質結構,這個過程至今仍可能耗費數年時間和10萬美元成本。
雖然計算方法在理解蛋白質結構方面已取得進展,但其準確性始終不足以替代實驗室方法。
最初的AlphaFold模型利用人工智能預測氨基酸對之間的距離,這些距離分佈數據在第二步用於推導蛋白質的預測結構。第二個步驟中,AlphaFold利用這些信息生成蛋白質的可能構象模型,該環節並未使用人工智能技術。
據Jumper博士介紹,在AlphaFold2中,蛋白質結構完全由神經網絡自主預測。科學家解釋,該神經網絡與一個基於注意力機制的神經網絡協同工作,能同時處理結構的各個部分並將其連接起來,其原理類似於人類拼圖遊戲。“這與時間無關…關鍵在於準確性,“Jumper博士強調。
DeepMind表示:“在某些情況下,AlphaFold能在20秒內以極高精度預測蛋白質結構。“該公司指出,在AlphaFold問世前,沒有任何計算方法能達到實驗級別的精確度。雖然該方法存在一定侷限性,但"它解決了一個重大難題”,1994年共同創立CASP實驗的馬里蘭大學生物科學與生物技術研究所John Moult教授評價道。
Jumper博士透露:“團隊正將注意力轉向蛋白質創新的新挑戰。”
目前研究致力於理解基因突變與蛋白質功能變化間的關聯,以助力疾病治療。牛津大學團隊在多年嘗試其他方法未果後,藉助AlphaFold成功解析了一種關鍵蛋白質結構,現正基於此開發瘧疾疫苗。“當我們將模型與AlphaFold預測的結構結合時,整個系統的工作原理突然變得清晰可見,“分子寄生蟲學教授Matthew Higgins表示。
聯繫記者Steven Rosenbush請致信[email protected]
出現在2023年3月23日的印刷版中,標題為“Meta工具推動機器學習與科學的融合”。