2024化學諾獎接力青睞AI,蛋白質結構預測新工具獲一半獎項_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!1小时前
10月9日,歐洲中部時間11時45分(北京時間17時45分),瑞典皇家科學院決定將2024年諾貝爾化學獎的一半授予大衞·貝克(David Baker),以表彰他在“計算蛋白質設計”方面的貢獻,並將另一半授予戴密斯·哈薩比斯(Demis Hassabis)和約翰·M·詹伯(John M. Jumper),以表彰他們在“蛋白質結構預測”方面的貢獻。
David Baker,1962年出生於美國華盛頓州西雅圖。1989年獲美國加州大學伯克利分校博士學位。現為美國華盛頓大學西雅圖分校教授。
Demis Hassabis,1976年出生於英國倫敦。2009年獲得英國倫敦大學學院博士學位。Google DeepMind首席執行官。
John M. Jumper,1985年出生於美國阿肯色州小石城。2017年獲得美國伊利諾伊州芝加哥大學博士學位。Google DeepMind高級研究科學家。
諾貝爾獎官方表示,2024年諾貝爾化學獎的主題是蛋白質——生命中巧妙的化學工具。大衞·貝克成功完成了幾乎不可能的任務,構建了大量全新的蛋白質。德米斯·哈薩比斯和約翰·朱姆珀開發了一種人工智能模型,解決了一個50年來的難題:預測蛋白質的複雜結構。這些發現具有巨大的潛力。
生命的多樣性證明了蛋白質作為化學工具的驚人能力。它們控制並驅動所有化學反應,這些反應共同構成了生命的基礎。蛋白質還作為激素、信號物質、抗體以及不同組織的構建模塊發揮作用。
“今年獲得認可的發現之一是關於構建非凡的蛋白質;另一個則實現了一個50年來的夢想:從氨基酸序列預測蛋白質結構。這兩項發現為未來開闢了廣闊的可能性,”諾貝爾化學委員會主席Heiner Linke説道。
蛋白質通常由20種不同的氨基酸組成,這些氨基酸可以被視為生命的構建模塊。2003年,大衞·貝克成功利用這些模塊設計出一種與任何其他蛋白質不同的新蛋白質。從那時起,他的研究團隊創造了一個又一個富有想象力的蛋白質,包括可用於藥物、疫苗、納米材料和微小傳感器的蛋白質。
下文全面介紹基於AI的蛋白質預測工具——alphafold的發展過程。
撰文 | 郭貝一、郭曉強
來源 | 《科學》雜誌
基於神經網絡原理構建的人工智能工具AlphaFold實現對蛋白質三維結構的精準預測,解決困擾生命科學60年的難題。這一突破推動基礎研究快速發展的同時,還有望在新藥研發和疾病治療等多個領域發揮重要作用。
蛋白質是生命活動的物質基礎,亦可看作生命的存在形式。蛋白質擁有廣泛的生物學功能,包括結構組分(膠原蛋白)、催化功能(酶)、調節作用(激素)、物質運輸(血紅蛋白)、機械收縮(肌動蛋白)、機體免疫(抗體)等,進而參與幾乎所有生命過程,如分子水平的DNA複製和轉錄、蛋白質翻譯、物質與能量代謝等,以及細胞層面的精卵融合、細胞增殖和分化、細胞凋亡和壞死、細胞衰老和細胞通信等,其重要性不言而喻。
儘管蛋白質種類多樣,但它們都是由20種基本氨基酸組成,區別在於不同的氨基酸排列順序,這一特徵稱為一級結構,亦稱初級結構,但這種線性結構需經過充分摺疊形成空間三維結構,亦稱高級結構。結構決定功能是許多學科的基本原則,生命科學也不例外,因此蛋白質結構研究在生命科學領域佔據舉足輕重的位置[1]。
蛋白質結構研究
1819年,構成蛋白質的第一種氨基酸亮氨酸分離成功,1936年最後一個氨基酸蘇氨酸成功鑑定,前後跨越100多年,這説明了蛋白質研究的艱鉅性。
1953年,英國生物化學家桑格(F.Sanger)藉助新出現的各種氨基酸和多肽分離方法和自己創造的氨基酸顯色反應,確定了胰島素兩條多肽鏈的氨基酸序列,1955年又確定二硫鍵位置,獲得1958年諾貝爾化學獎。
1957年,英國生物化學家肯德魯(J.C. Kendrew)藉助X-射線晶體衍射技術首次確定肌紅蛋白三維結構,兩年後他的同事佩魯茨(M.F. Perutz)確定血紅蛋白三維結構,兩人分享1962年諾貝爾化學獎。通過這兩項諾貝爾獎也可看出蛋白質結構研究的重要性,從成果取得到獲獎只有35年。與此對應,作為分子生物學裏程碑成果的DNA雙螺旋結構解析則等待了9年(如提前認可,富蘭克林的悲劇可能就可避免)。
蛋白質結構研究一直是諾貝爾化學獎青睞的對象,至今已頒發十餘次獎項,既包括重要蛋白(或複合物)的解析,也包括新技術或新方法的突破,因此該領域長期來看是生命科學前沿和焦點。
蛋白質結構研究與諾貝爾化學獎
隨着許多蛋白質結構被解析,科學界考慮將這些信息進行存檔以便利科研人員使用。1971年,在美國冷泉港實驗室舉辦的一次蛋白質晶體學研討會上,由布魯克海文國家實驗室漢密爾頓(W. Hamilton)倡導建立蛋白質數據庫(Protein Data Bank, PDB),最初只包含7種蛋白質結構信息,是生命科學領域第一個開放獲取的數字資源。磁共振波譜和冷凍電鏡等新技術的發明和完善,大大加快了蛋白質結構解析的步伐,PDB內信息也得到了快速增長,2014年突破了10萬種。然而這一數量相比已知的上億種蛋白質顯得微不足道,因此研究人員開始嘗試用理論方法直接由初級結構獲取高級結構信息[2]。
蛋白質結構預測
1961年,美國生物化學家安芬森(C.B. Anfinsen)藉助核糖核酸酶變性-復性實驗得出結論:蛋白質初級結構決定高級結構(安芬森定律)。安芬森定律清晰地説明蛋白質空間結構並非隨機形成,而是根植於氨基酸的線性順序,該定律成為蛋白質結構預測的理論基礎。安芬森在1972年諾貝爾獎獲獎感言中提出一個願景:將來有一天僅從氨基酸序列就能預測任何蛋白質三維結構。從蛋白質初級結構預測高級結構的過程較為複雜,是結構生物學和理論生物學領域最具挑戰性的課題,它吸引了眾多科研人員前赴後繼嘗試解決這一難題。
蛋白質結構預測主要有兩種策略,基於模板建模(template-based modeling, TBM)和無模板建模(template-free modeling, FM)[3]。TBM又稱同源建模,它利用新蛋白質初級結構與PDB中已有三維結構蛋白質的氨基酸序列比對結果為基礎構建模型,並進一步完善,準確性取決於新蛋白質和PDB中蛋白質的進化距離,如果PDB缺乏新蛋白類似結構域的已知結構,則無法生成準確模型。FM又稱從頭計算方法,利用能量函數計算氨基酸空間相互作用,最終從所有可能結構中選取最佳形式,依靠分子動力學模擬獲得蛋白質摺疊方式,該法對小分子量蛋白質結構預測還算準確,但隨着蛋白質複雜性增加逐漸變得無能為力。
1994年,美國計算生物學家莫爾特(J. Moult)和菲德利斯(K. Fidelis)為推動蛋白質結構預測領域的快速發展,啓動了蛋白質結構預測關鍵評估(Critical Assessment of Structure Prediction, CASP)活動,這是兩年舉辦一次的競賽或選拔賽,旨在評選蛋白質結構建模中的最新和最佳技術。組織者向參與者提供目標蛋白質的氨基酸序列,據此預測蛋白質結構,與此同時還採取實驗方法獲取蛋白質結構,最終將二者進行對比獲得全局距離測試(global distance test, GDT)評分。為保證結果客觀性,整個過程為雙盲,即參與者和評審員互不知曉。GDT是百分制,用於評判結構預測的精準度,超過90分則非常理想,達到實驗數據級別。在第一屆競賽中,對在已知數據庫有類似模板的蛋白質的理論預測尚算完美,但對無模板的則堪稱災難,GDT得分只有20分。即使到2016年第12屆競賽也只升高到40分,與預期還有極大差距,以至莫爾特悲觀地認為,有生之年這個問題可能都難以解決,但不久人工智能(artificial intelligence, AI)技術的加入,問題得到了完美的答案。
人工智能發展
智能,又稱智力,是人類所特有的複雜認知能力並在此基礎上進行學習形成概念、理解和應用邏輯以及推理等。AI則是利用計算機或機器人模擬人類智能完成一系列複雜任務的過程,如推理等。
1950年,英國數學家圖靈(A.M. Turing)在論文“計算機和智能”中首次討論建造智能機器和測試智能的方式,賦予機器借鑑人腦信息加工、理性設計和科學決策的能力,奠定了AI的理論基礎。1956年,在美國達特茅斯舉辦的學術會議上,麥卡錫(J. McCarthy)首次提出AI一詞,並相信將來會製造出像人類思考和推理的機器。在隨後的時間裏,AI取得了一系列重要進展,特別是進入21世紀以來更是突飛猛進,智能水平日趨強大,這裏重點介紹機器學習(machine learning, ML)。
機器學習是人工智能的分支,主要基於數據進行算法開發和研究,通過學習已有數據而推廣到新數據,從而可在無明確指令情況下執行任務,進一步發展出更高級的深度學習(deep learning, DL),可在儘量減少人工干預的前提下實現對非結構化數據(如文本或圖像)的學習,在視覺加工、語言處理和語音識別等領域得到了廣泛應用。
深度學習的研究歷史可追溯到1943年,美國神經生理學家麥卡洛克 (W. S. McCulloch)和年輕邏輯學家皮茨(W. H. Pitts)構建出第一個基於模擬人腦的神經網絡(neural network)模型,它可以基於神經元的活動特性進行簡單的邏輯運算。神經網絡由多層結構組成,包含輸入層、一個或多個隱藏層和輸出層。只有三層的稱為基本神經網絡,三層以上的為深度神經網絡,是深度學習的基礎。
經過後續發展和完善,神經網絡逐漸成為諸多AI設計的基礎,人們開始嘗試應用於蛋白質結構預測。比如2016年出現的循環幾何網絡 (recurrent geometric network, RGN) 和後續發展的神經能量模型和優化(neural energy modeling and optimization, NEMO)等,這些方法取得了初步成功。
天才少年
哈薩比斯(D. Hassabis)出生於英國倫敦,童年就展現出過人天賦。4歲時,哈薩比斯就能熟練掌握國際象棋技巧並戰勝父親和叔叔,13歲成為國際象棋大師,並在國際比賽中與成年人對弈。哈薩比斯還表現出與年齡不相稱的邏輯運算天賦,8歲時應用電腦進行遊戲編程,隨着年齡增長,他決定將計算機應用於更高級的智力比拼,因此希望從事人工智能方面的工作。17歲時,他設計並編程了銷量數百萬、屢獲殊榮的遊戲《主題公園》。
1994年,哈薩比斯進入劍橋大學學習,3年後以年級第一名的成績獲得計算機學士學位。1998年,哈薩比斯創立電子遊戲公司Elixir Studios,先後創作出《共和國:革命》、《邪惡天才》等多款暢銷遊戲。
哈薩比斯和江珀[4]
2005年,哈薩比斯在遊戲領域證明自己的能力後,決定研究人腦機制以證明AI的巨大潛力,因此重返學術界,進入倫敦大學學院攻讀認知神經科學博士學位,主要研究記憶和健忘的分子機制。哈薩比斯發現大腦海馬區損傷會導致健忘症,並減弱聯想功能和情景記憶,這項成果被《科學》週刊列為2007年十大科學突破之一。2009年,哈薩比斯獲得博士學位後,前往美國哈佛大學和麻省理工學院開展博士後研究,進一步充實自己的知識。
2010年,哈薩比斯等人在倫敦創立人工智能公司Deepmind,將公司使命定義為解決“智能問題”,繼而使用人工智能“解決其他一切問題”。哈薩比斯擔任公司首席執行官(CEO),將自己在神經科學和機器學習方面的知識與計算機科學相結合,致力於構建新型人工智能機器。DeepMind的快速發展引起科技巨頭谷歌的注意,並於2014年以超過65億美元價格被谷歌收購,哈薩比斯仍擔任DeepMind的CEO。
哈薩比斯認為圍棋是機器學習的理想挑戰目標,他們開發成功AlphaGo,在2015年以50比分擊敗歐洲圍棋冠軍,第二年再以41比分擊敗世界冠軍李世石(Lee Sedol),證明了AlphaGo的強大能力。AlphaGo的成功也榮膺2016年《科學》週刊評選的年度十大進展之一。
人機對戰的巨大成功促使哈薩比斯決定進一步挑戰自身,這次不再關注遊戲,而是生物學問題。哈薩比斯利用AI解決生物學問題的想法由來已久,但苦於找不到理想切入點而遲遲未能啓動,蛋白質結構預測無疑是一個最佳選擇。DeepMind為此成立了一個開展蛋白質結構預測的小團隊,由於蛋白質空間結構的形成主要通過摺疊(fold)方式完成,該團隊開發的人工智能系統被命名為AlphaFold。
AlphaFold的首次突破
AlphaFold採用深度學習基礎上的FM 預測策略, 共三個系統。首先是建模系統, 利用神經網絡和強大運算能力基於能量最低原理預測蛋白質內各氨基酸殘基之間的空間距離, 產生一系列結構片段(類似二級結構), 初步組裝出三維結構;其次是優化系統, 對建模結構進行再計算的重複操作以提升精確度;最後是輸出系統,產生最終三維結構。
2018年,AlphaFold參與了第13屆CASP競賽,牛刀初試就技壓羣雄,毫無爭議地榮膺冠軍寶座,複雜蛋白GDT平均達到60分,成功預測出給定的43種蛋白質中的25種,第二名僅預測出3種[6]。這項成就使哈薩比斯的工作第三次榮膺《科學》週刊評選的年度十大進展之一。
AlphaFold儘管較傳統方法有較大突破,但仍存在諸多不足,如預測結果精確度尚待提高,距離90分以上(完美預測)仍有較大差距;預測結構平均分辨率為0.66納米(大於0.3納米僅顯示蛋白質鏈輪廓),與實驗方法所得最佳分辨率0.1納米(原子半徑尺度,這種程度下可清晰展示單個原子位置)也存在上升空間。
DeepMind公司決定改進AlphaFold系統,但經過6個月嘗試後卻遠遠未達預期,不得不開始重新調整思路,首先進行人事變動。
江珀(J.M. Jumper)出生於美國阿肯色州小石城,2007年在範德比爾特大學獲得理學學位,隨後在獎學金資助下進入劍橋大學攻讀理論凝聚態物理學博士學位,但不久發現對此並無太大興趣,因此選擇退學並加入一家從事蛋白質結構計算機模擬的公司,工作中逐漸對理論生物學產生濃厚興趣。2011年,江珀重新回到學校,進入芝加哥大學跟隨著名理論化學家弗裏德 (K.F. Freed)和索斯尼克(T.R. Sosnick)攻讀理論化學博士,將機器學習策略用於蛋白質動力學研究。2017年,江珀畢業獲得博士學位,獲悉Deepmind公司正在開展蛋白質結構預測方面研究,投遞申請後很快得到答覆,當年10月加入公司,成為蛋白質結構預測小組的重要成員。
在AlphaFold遲遲未能取得進一步突破之時,哈薩比斯意識到江珀在蛋白質物理和機器學習方面跨學科背景的重要性,他們進行了深入交流,最終達成共識,採用新思路改進原有設計。2018年7月,江珀被提拔為AlphaFold項目主管,全面負責總體工作。
AlphaFold2再度完善
江珀帶領年輕團隊對AlphaFold最初版本進行了重新梳理,在此基礎上展開全面調整和改進,對每個細節給予挖掘以期達到盡善盡美。比如,他們引入空間立體結構和進化理念、整合已有蛋白質結構的詳細信息如原子半徑和鍵角等、完善機器有效學習策略以利於從有限數據中提取最大信息,特別是拋棄傳統算法的束縛,更強調空間靠近而非線性相鄰等。沒有任何一種改進對最終結果有決定性影響,但正是這些奇妙新想法的完美結合,才最終實現真正意義的突破。
AlphaFold改進系統(亦稱AlphaFold2)分為三個操作進程。第一進程,通過查詢多個蛋白質的氨基酸序列數據庫構建輸入序列的多序列比對集(multisequence alignment, MSA)(MSA表徵)。MSA的基本邏輯是同一功能蛋白質由於進化緣故,氨基酸序列會出現較大差異(如人肌紅蛋白和鴿子肌紅蛋白只有25%的氨基酸序列相同),但基本結構高度相似,據此作為結構預測的基礎。同時,通過查詢蛋白質三維結構數據庫構建輸入序列各氨基酸空間相互關係的矩陣(成對錶徵)。第二進程,上述兩組信息(進化信息和空間信息)在一個編碼器(evoformer)上進行處理,得出一個粗略的結構假設,然後返回最初狀態進行測試和完善(該過程稱為迭代),要求結構假設同時滿足MSA表徵和成對錶徵,且二者之間相互交流,共同糾正和改進最初假設結構的不足。第三進程是輸出蛋白質三維結構。
AlphaFold2基於神經網絡的深度學習模型[7]
深度學習過程中,研究者使用PDB中已有的17萬種蛋白質結構信息進行訓練。AlphaFold2反覆將預測結果與真實結構進行對比,使二者之間逐漸接近,最終使系統吸收並完全掌握蛋白質摺疊原理。AlphaFold2還能對預測結構給出可信程度,類似於考試估分,數值越高意味着與真正結構差距越小。AlphaFold2成功的另一因素是DeepMind強大的運算能力,這是絕大多數學術團體和小公司都難以達到的目標。
2020年,AlphaFold2在第14屆CASP競賽上進一步大殺四方,在給定預測蛋白質中GDT平均得分92.4,遠超所有競爭對手;對高難度蛋白預測GDT平均得分87,比第二名高出25分。2021年7月15日,詳細描述AlphaFold2內容的論文在《自然》週刊在線發表[7],至今引用近萬次。Deepmind不久還公佈算法供全球研究人員免費使用。這項成就被《科學》週刊評選為2021年度十大科學突破之首,蛋白結構預測也成為《自然-方法學》2021年度方法[8]。
AlphaFold2的發展和應用
AlphaFold2解決了蛋白質結構預測問題,目前雖無法做到盡善盡美,但大多數情況下對非結構解析專業的普通研究者而言已經足夠。尤為重要的是,當研究人員獲得感興趣蛋白質序列時能夠在幾天甚至幾小時內獲得完美結構信息,而不再需要數月甚至數年時間和數百萬美元的花費,對生命科學研究而言,就是難以置信的突破。
當然,AlphaFold2有不足之處,比如,對內在無序結構(它們在相分離等多個過程發揮重要作用)的預測效果較差。因為最初的設計目標是對單個蛋白質結構進行預測,但蛋白質發揮作用時往往是以複合物或小分子結合狀態存在,為此,Deepmind公司和其他研究團隊又開發出其他版本作為補充,如AlphaFold Multimer和RosettaTTAFold等。
AlphaFold2已展示出強大的蛋白質結構預測能力,2021年完成人類所有蛋白質的結構預測;2022年7月,獲得2億多種蛋白質的預測結構,並已進入數據庫供免費使用[9,10]。Deepmind公司最近推出AlphaFold3版本,可高準確度和高精度預測蛋白質複合物、蛋白質-核酸、蛋白質與小分子配體等三維結構[11],進一步加大適用範圍。
在基礎研究領域,原來研究新蛋白功能需要依賴於X-射線衍射或冷凍電鏡,高昂的費用和技術門檻使大多數實驗室望而卻步,目前該問題得到了有效解決。聯合AlphaFold2和冷凍電鏡成功解析核孔複合物結構這一成果對理解細胞核內外物質進出機制具有重要意義。
在應用研究領域,現代藥物研發很大程度上依賴於蛋白質結構信息,但諸多感興趣藥物靶點蛋白尚未用實驗方法解析出來,結構預測的突破無疑解決了這一瓶頸,必將極大推動新藥研發進程。蛋白質人工設計如抗體和疫苗篩選是一個重要領域,傳統方法是先設計出多種組合後,通過實驗進行反覆驗證,過程繁瑣耗時,但通過蛋白質結構預測則會大大縮短研究週期。
深遠影響
蛋白質結構預測的突破可歸因於天時、地利和人和的共同結果。天時上,高速發展的人工智能和層出不窮的新方法是AlphaFold的理論基礎,PDB中快速增加的蛋白質結構是深度學習的材料基礎;地利上,背靠谷歌公司強大的運算能力;人和上,公司聚集了一批富有朝氣和探索精神的年輕人,以及哈薩比斯與江珀卓越的領導才能和創新能力,成功也就水到渠成。
近年來,AI在如火如荼地快速發展,取得一系列重大突破,如ChatGPT、Sora等,其智能程度逐漸提升,正在改變着人類的生活方式和科研的研究模式。AlphaFold無疑是優秀代表之一,可看作是AI發展的一個縮影。
AlphaFold解決了困擾生命科學多年的一個重大難題,並有望為其他生物學問題解決提供借鑑。大數據已成為當前科學發展的重要特徵,如基因組測序結果和海量論文等,藉助AI工具解決生命科學問題已成為一個重要方向。AlphaFold成功的另一層意義在於激勵年輕人要敢於挑戰自我。
AlphaFold2的成功也為哈薩比斯和江珀兩位科學家帶來眾多科學榮譽。他們先後分享威利生物醫學科學獎 (2022年)、生命科學突破獎(2023年)、 蓋爾德納國際獎(2023年)、拉斯克基礎醫學研究獎(2023年)等[12],也將是近幾年諾貝爾自然科學類獎的熱門人選。
致謝:本文獲得周耀旗老師重要建議,在此表示誠摯的感謝。
參考文獻
[1] Sklar J. QnAs with Demis Hassabis and John M. Jumper: Winners of the 2023 Albert Lasker Basic Medical Research Award. Proc Natl Acad Sci USA 2023, 120(39):e2313816120.
[2] Rothman JE. Starting at Go: Protein structure prediction succumbs to machine learning. Proc Natl Acad Sci USA, 2023, 120(39):e2311128120.
[3] Kuhlman B, Bradley P. Advances in protein structure prediction and design. Nat Rev Mol Cell Biol, 2019, 20(11):681-697.
[4] Zhou Y, Litfin T, Zhan J. 3 = 1 + 2: how the divide conquered de novo protein structure prediction and what is next? Natl Sci Rev, 2023, 10(12):nwad259..
[5] Jumper J, Hassabis D. The Protein Structure Prediction Revolution and Its Implications for Medicine: 2023 Albert Lasker Basic Medical Research Award. JAMA. 2023, 330(15):1425-1426.
[6] Senior AW, Evans R, Jumper J, et al. Improved protein structure prediction using potentials from deep learning.Nature. 2020, 577(7792):706-710.
[7] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, 596(7873):583-589.
[8] Marx V. Method of the Year: protein structure prediction. Nat Methods, 2022, 19(1):5-10.
[9] Thornton JM, Laskowski RA, Borkakoti N. AlphaFold heralds a data-driven revolution in biology and medicine. Nat Med, 2021, 27(10):1666-1669.
[10] Borkakoti N, Thornton JM. AlphaFold2 protein structure prediction: Implications for drug discovery. Curr Opin Struct Bio, 2023, 78: 102526.
[11] Abramson J, Adler J, Dunger J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature, 630(8016): 493-500.
[12] Sosnick TR. AlphaFold developers Demis Hassabis and John Jumper share the 2023 Albert Lasker Basic Medical Research Award. J Clin Invest, 2023, 133(19):e174915.
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權説明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯繫後台。