50年前的蛋白質摺疊問題已經解決!創造阿爾法狗的公司,如今要解開生物學最大秘密_風聞
大眼联盟-2021-02-23 14:40
DeepMind首創的新方法在抗擊新冠病毒的鬥爭中已經取得成果。本文將闡述這家以遊戲知名的公司如何解開生物學最大秘密的故事。
計算機生成與新冠病毒相關的蛋白質ORF8圖像。圖像由DeepMind開發的人工智能系統支持繪製。圖片來源:COURTESY OF DEEPMIND2016年3月13日深夜,氣温相當寒冷,兩名男子頭戴羊毛帽,身穿厚厚的外套,並肩走過韓國首爾市中心擁擠的街道。二人熱烈地交談,似乎完全忽視了周圍餃子館和燒烤店霓虹燈的誘惑。他們此行韓國肩負重任,多年的努力終於能夠看到結果。最棒的是,他們剛剛成功了。
這次散步是為了慶祝。他們取得的成就將進一步鞏固他們在計算機史上的地位。在古老的戰略遊戲圍棋領域裏,他們開發的人工智能軟件已經充分掌握了箇中奧秘,而且輕鬆擊敗了全球頂尖選手李世石。如今,兩人開始討論下一個目標,身後跟蹤的紀錄片攝製組捕捉到了當時的談話。
“告訴你,我們可以解決蛋白質摺疊問題。”德米斯•哈薩比斯對同伴大衞•西爾弗説。“那才是大成就。我相信現在能夠去做了。以前我只是想過,現在肯定可以做成。”哈薩比斯是總部位於倫敦的人工智能公司DeepMind的聯合創始人及首席執行官,正是該公司開發出了AlphaGo(阿爾法狗)。西爾弗則是DeepMind的計算機科學家,負責領導AlphaGo團隊。
四年後,DeepMind實現了當年哈薩比斯在首爾散步時的設想。公司開發出了人工智能系統,能夠根據基因序列來預測蛋白質的複雜形狀,精確到單個原子寬度。靠着這項成就,DeepMind完成了需要近50年才能完成的科學探索。1972年,化學家克里斯蒂安•安芬森在諾貝爾獎獲獎演説中提出,只有DNA才可以完全決定蛋白質的最終結構。這是驚人的猜想。當時連一個基因組都未完成測序。安芬森的理論開創了計算生物學的分支,目標是用複雜的數學模擬蛋白質結構,而不是實驗。
DeepMind在圍棋方面取得的成就確實很重要,但在圍棋和計算機科學這兩個相對偏僻的領域之外,幾乎沒有產生什麼具體影響。解決蛋白質摺疊問題則完全不同,對大多數人來説都有變革意義。蛋白質是生命的基本組成部分,也是大多數生物過程背後的運行機制。如果能夠預測蛋白質的結構,將徹底改變人們對疾病的理解,還可以為癌症到老年痴呆症等各種疾病開發全新也更具針對性的藥物。新藥上市時間有望加快,藥物研發成本減少數年時間,成本也節約數億美元,還可能會拯救很多生命。
DeepMind的聯合創始人及首席執行官德米斯•哈薩比斯。他早年痴迷國際象棋和電子遊戲設計,後來對開發人工智能系統產生興趣。圖片來源:Courtesy of DeepMindDeepMind首創的新方法在抗擊SARS-CoV-2(也就是新冠病毒)的鬥爭中已經取得成果。以下是以遊戲知名的公司如何揭開生物學最大秘密的故事。
形狀莫測的積木
“蛋白質是細胞的主要機器。”加州大學伯克利分校的生物工程教授伊恩•霍姆斯表示。蛋白質的結構和形狀對其工作方式至關重要,構成蛋白質分子晶格的小“口袋”是發生各種化學反應的地方。如果能夠找到某種化學物質與其中一個口袋結合,這種物質就可以作為藥物阻止或加速生物過程。生物工程師還能夠創造出自然界中從未出現的全新蛋白質,而且具有獨特的療效。“如果我們可以利用蛋白質的力量,合理地設計用途,就能夠製造出神奇的自我組裝機器,發揮一些作用。”霍姆斯説。
但為了確保蛋白質達到想要的效果,把握其形狀很重要。
蛋白質由氨基酸鏈組成,常被比作細繩上的珠子。至於珠子按照什麼順序穿起來,信息都存儲在DNA裏。但是,根據簡單的基因指令很難預測完整的鏈條會形成多複雜的物理形狀。氨基酸鏈根據分子間吸引和排斥的電化學規則摺疊成某種結構。形狀常常類似繩索和絲帶纏繞而成的抽象雕塑:褶皺的帶狀物加上莫比烏斯帶,就像捲曲環狀的螺旋。20世紀60年代,物理學家和分子生物學家塞勒斯•列文塔爾發現,一種蛋白質的形狀有太多可能性。如果想通過隨機嘗試組合找出蛋白質的準確結構,花的時間比已知宇宙的年齡還長。而且,幾毫秒內蛋白質就會完成摺疊。該觀察被稱為列文塔爾悖論。
到目前為止,只有通過所謂X射線晶體衍射才可以接近準確瞭解蛋白質的結構。顧名思義,首先需要將含有數百萬蛋白質的溶液轉化為晶體,本身就是很複雜的化學過程。然後,X射線發射到晶體上,科學家從獲得的衍射圖逆向工作,從而建立蛋白質圖像。而且,還不是隨便什麼X射線都可以。要想獲得很多蛋白質的結構,要由圓形的,大小堪比體育場的同步加速器發射X射線。
過程既昂貴又耗時。根據多倫多大學(University of Toronto)的研究人員估計,用X射線晶體衍射法測定單個蛋白質的結構需要約12個月,花費約12萬美元。已知的蛋白質超過2億種,每年大約能夠發現3000萬種,但其中只有不到20萬種蛋白質通過X射線晶體衍射或其他實驗方法繪製出了結構圖。“人類的無知程度正在迅速增長。”計算物理學家約翰•喬普説,現在他擔任DeepMind的高級研究員,負責領導蛋白質摺疊團隊。
過去50年裏,自從克里斯蒂安•安芬森發表著名演講以來,科學家們一直努力使用高性能計算機上運行的複雜數學模型加速分析蛋白質結構。“基本上就是嘗試在計算機裏創建蛋白質的數字雙胞胎,然後嘗試操作。”馬里蘭大學的細胞生物學和分子遺傳學教授約翰•穆爾特説,他也是用數學算法通過DNA序列預測蛋白質結構的先驅。問題是,預測出的摺疊模式經常有誤,與科學家通過X射線晶體衍射發現的結構並不一致。事實上大約10年前,很少有模型預測大蛋白質形狀時準確率可以超過三分之一。
蛋白質摺疊模擬要佔用龐大的算力。2000年,研究人員創建了名叫Fold@home的“公民科學”項目,人們能夠捐出個人電腦和遊戲機的閒置處理能力運行蛋白質摺疊模擬。所有設備通過互聯網連接在一起,從而打造全世界最強大的虛擬超級計算機之一。大家都希望幫研究人員擺脱列文塔爾悖論,通過隨機實驗和試錯準確判斷蛋白質的結構。目前該項目仍然在進行中,已經為超過225篇論文提供了數據,研究內容是與多種疾病相關的蛋白質。
儘管擁有強大的處理能力,Fold@home仍然深陷列文塔爾悖論,因為算法試圖搜索所有可能的排列,從而找到蛋白質結構。破解蛋白質摺疊的關鍵在於跳過艱苦搜索的過程,發現蛋白質DNA序列與結構聯繫的神秘模式,從而讓計算機踏上全新捷徑,直接從遺傳學領域轉到準確繪製形狀。
嚴肅的遊戲
德米斯•哈薩比斯對蛋白質摺疊的興趣始於一場遊戲,他對很多事都是這樣。哈薩比斯曾經是國際象棋天才,13歲時已經成為大師,一度在同年齡裏排名世界第二。他對象棋的熱愛後來轉向對兩件事感興趣:一是遊戲設計,二是研究自身意識的內在機制。他高中時開始為電子遊戲公司工作,在劍橋大學(University of Cambridge)學習計算機科學後,1998年創立了電腦遊戲初創公司Elixir Studios。
儘管曾經研發出兩款獲獎遊戲,最終Elixir還是賣掉知識產權並關閉公司,哈薩比斯從倫敦大學學院(University College London)獲得了認知神經科學博士學位。彼時他已經開始踏上漫漫征途,後來2010年聯合創立了DeepMind。他開始研發通用人工智能軟件,不僅可以學習執行很多任務,有些甚至比人類完成得更好。哈薩比斯曾經説過,DeepMind的遠大目標是“解決智能問題,然後解決所有其他問題。”哈薩比斯也曾經暗示,蛋白質摺疊可能就是“其他問題”裏的第一批。
2009年,哈薩比斯在麻省理工學院(Massachusetts Institute of Technology)攻讀博士後時,聽説了一款名為Foldit的在線遊戲。Foldit是由華盛頓大學(University of Washington)的研究人員設計,跟Fold@home類似,也是有關蛋白質摺疊的“公民科學”項目。但Foldit並不是整合閒置的微芯片,而是利用閒置的大腦。
Foldit是類似益智遊戲的遊戲,並不掌握生物學領域知識的人類玩家比賽摺疊蛋白質,如果能夠得到合理的形狀就可以獲得積分。然後,研究人員分析得分最高的設計,看是否有助於破解蛋白質結構問題。遊戲已經吸引成千上萬玩家,並且一些記錄案例中得到的蛋白質結構比研究蛋白質摺疊的計算機算法更準確。“從這個角度來看,我覺得遊戲很有趣,想着能不能利用遊戲的上癮性和遊戲的樂趣,不僅讓人們玩得開心,也做一些對科學有用的事情。”哈薩比斯説。
Foldit能夠抓住哈薩比斯的想象力還有另一個原因。其實遊戲是一種強化學習行為,特別適合訓練人工智能。軟件可以通過試驗和試錯從經驗中學習,從而更好地完成任務。在遊戲裏軟件能夠無休止地試驗,反覆地玩,逐步改進,不對現實世界造成傷害的情況下提升技能水平,直到超過人類。遊戲也有現成的方法判斷某個特定的動作或某組動作是否有效,即積分和勝利。種種指標可以提供非常明確的標準衡量表現,在現實世界很多問題裏則無法如此處理。現實世界遇到問題時,最有效的方法可能比較模糊,“獲勝”的概念也可能不適用。
DeepMind的基礎主要是將強化學習與稱為深度學習的人工智能相結合。深度學習是基於神經網絡的人工智能,所謂神經網絡是大致基於人腦工作原理的軟件。這種情況下,軟件沒有實際的神經細胞網絡,而是一堆虛擬神經元分層排列,初始輸入層接收數據,按照權重分配後傳遞到中間層,中間層依次執行相同操作,最終傳遞到輸出層,輸出層彙總各項加權值並算出結果。網絡能夠調整各項權重,直到產生理想的結果,例如準確識別貓的照片或國際象棋獲勝。之所以被稱為“深度學習”,並不是因為產生的結果一定深刻,當然也有可能深刻,但主要原因是網絡由許多層構成,所以可以説具有深度。
DeepMind最初成功是用“深度強化學習”創建軟件,自學玩經典的雅達利電腦遊戲,如《乒乓球》(Pong)、《突圍》(Breakout)和《太空入侵者》(Space Invaders)等,而且水平超過人類。正是這一成就讓DeepMind受到谷歌(Google)等科技巨頭的關注,據報道,2014年穀歌以4億英鎊(當時超過6億美元)收購了DeepMind。之後公司主攻圍棋並開發了AlphaGo系統,2016年擊敗了李世石。DeepMind接着開發了名叫AlphaZero的更通用系統版本,幾乎能夠學會所有兩玩家回合制遊戲,在這種遊戲中,玩家都可以獲得充分信息(沒有機會隱藏信息,例如牌面朝下放置或隱藏位置)。去年,公司開發的系統還在高度複雜的即時戰略遊戲《星際爭霸2》(Starcraft 2)中擊敗了頂尖的人類職業電競玩家。
2016年3月15日,谷歌DeepMind挑戰賽最後一場比賽結束後,職業圍棋選手李世石(左)與德米斯•哈薩比斯握手,比賽中李世石與電腦程序AlphaGo對決。圖片來源:Jeon Heon-Kyun—Pool/Getty Images但哈薩比斯表示,一直認為公司在遊戲方面的探索是完善人工智能系統的方式,之後能夠應用於現實世界挑戰,尤其是科學領域。“比賽只是訓練場,但訓練到底為了什麼?最終是為了創造新知識。”他説。
DeepMind並非具有產品和客户的傳統業務,本質上是推動人工智能前沿的研究實驗室。公司的很多開發方法都已經公開,供所有人使用或借鑑。不過某些方面的進步對姊妹公司谷歌也頗有幫助。
DeepMind團隊由工程師和科學家組成,幫助谷歌將尖端的人工智能技術融入產品。DeepMind的技術已經滲透各處,從谷歌地圖(Google Maps)到數字助理,再到協助管理安卓手機電池電量的系統。谷歌為此向DeepMind支付費用,母公司Alphabet繼續承擔DeepMind帶來的額外虧損。虧損規模並不小,2018年,公司虧損4.7億英鎊(當時約合5.1億美元),這也是通過英國的商業註冊機構公司登記局(Companies House)可以查到的最新一年公開記錄。
不過如今員工超過1000人的DeepMind,還有一整個部門只負責人工智能的科學應用。該部門的負責人為39歲的印度人普什米•科裏,他加入DeepMind之前曾經在微軟從事人工智能研究。他表示,DeepMind的目標是解決“根節點”問題,這是數據科學家的慣用語,意思是希望解決能夠解鎖很多科學路徑的基礎問題。蛋白質摺疊就是根節點之一,科裏説。
“蛋白質摺疊的奧運會”
1994年,當很多科學家剛開始使用複雜的計算機算法預測蛋白質摺疊方式時,馬里蘭大學的生物學家墨爾特決定開辦競賽,用公正的方法評估哪種算法最好。他把比賽稱為蛋白質結構預測關鍵評估(簡稱為CASP),之後每兩年舉辦一次。
賽事具體如下,美國國立衞生研究院資助的蛋白質結構預測中心主辦CASP,並説服從事X射線晶體衍射和其他實證研究的研究人員提供尚未公佈的蛋白質結構,要求在CASP競賽結束之前不公開相關結構。然後CASP將蛋白質DNA序列發給參賽者,參賽者用算法預測蛋白質結構。CASP判斷預測與X射線晶體學家和實驗學家發現的實際結構接近程度,然後根據算法對各種蛋白質預測的平均得分排名。“我稱之為蛋白質摺疊界的奧運會。”哈薩比斯説。2016年AlphaGo擊敗李世石後不久,DeepMind就打算贏得金牌。
DeepMind組建了小規模精幹的團隊,由六名機器學習研究人員和工程師組成。“讓‘通才’入手是我們的理念。”哈薩比斯説。公司裏並不缺乏人才。“前物理學家、前生物學家,大家都四處閒逛。”哈薩比斯有點啼笑皆非。“他們永遠不知道之前的專業知識什麼時候可以突然發揮作用。”最後團隊成員增加到20人左右。
不過,DeepMind還是認為團隊裏至少要有一位真正的蛋白質摺疊專家,後來選中了約翰•喬普。35歲的喬普像個大男孩,瘦得皮包骨,一頭蓬亂斜梳的棕色頭髮,有點像20世紀90年代末高中車庫樂隊的低音吉他手。他在劍橋大學獲得理論凝聚態物理碩士學位,之後在紐約由對沖基金億萬富翁大衞•肖創立的獨立研究實驗室D.E.Shaw Research工作。實驗室專門研究計算生物學,包括蛋白質模擬。後來喬普在芝加哥大學獲得了計算生物物理學博士學位,導師為卡爾•弗裏德和託賓•索斯尼克,兩位科學家皆因推動蛋白質摺疊模型進步出名。“我曾經聽説DeepMind對解決蛋白質結構有興趣。”他説。於是他申請並順利加入。
哈薩比斯和DeepMind團隊的第一直覺是,蛋白質摺疊能夠用與圍棋完全相同的方式解決,即深度強化學習。事實證明存在問題。首先,蛋白質摺疊結構的可能性比圍棋的步數還要多。更重要的是,DeepMind讓工智能系統AlphaGo與自己對弈就可以掌握圍棋的玩法。“所以可比性並不高,因為蛋白質摺疊不是雙人遊戲。”哈薩比斯説,“有點違背自然。”
計算物理學家約翰•喬普如今負責DeepMind的蛋白質摺疊團隊。喬普説,團隊面臨的挑戰不僅是在競爭中領先:“我們想打造對生物學家很重要的系統。”圖片來源:Courtesy of DeepMindDeepMind很快發現,如果使用所謂監督式深度學習的人工智能培訓方法,就能夠更簡便地取得進步。這是大多數商業應用裏使用的人工智能,神經網絡通過一組既定數據輸入和相應輸出,可以學習如何將給定的輸入與給定輸出相匹配。具體到蛋白質結構,DeepMind已經掌握約170000個蛋白質結構,能夠作為訓練數據。蛋白質數據庫(PDB)是已知三維蛋白質形狀及遺傳序列的公共存儲庫,可以公開查詢相關結構。
一些生物學家已經使用監督式深度學習預測蛋白質如何摺疊。但此類人工智能系統表現最佳的正確率也只有50%,對生物學家或醫學研究人員沒有什麼幫助,尤其是對結構未知的蛋白質,因為無法確定某次特定預測是否正確。
有種技術很有希望,其理念是基於蛋白質的進化史劃分為不同的家族。各種家族裏可能在一個DNA序列中找到相距遙遠但似乎會同時突變的氨基酸對。此類所謂“共同進化”的現象很有幫助,因為共同進化的蛋白質很可能在蛋白質摺疊結構中有聯繫。位於芝加哥的豐田技術研究所(Toyota Technological Institute)的科學家徐金波(音譯)率先利用深入學習共同進化數據預測氨基酸聯繫。這種方法有點像是在連接點遊戲裏尋找點。科學家仍然要用其他軟件找出點之間的線,過程中經常出錯。有時候連點都找不準。
在2018年的CASP競賽中,DeepMind應用了共同進化和預測聯繫的基本思想,但增加了兩個重要的轉折點。首先,系統沒有試圖確定兩個氨基酸是否有聯繫,也就是二進制輸出(即兩個氨基酸可能有聯繫,也可能沒有聯繫),而是決定讓算法預測蛋白質裏所有氨基酸對之間的距離。
在多數分子生物學家看來,這種方法似乎違反直覺,不過值得稱讚的是,徐金波也獨立提出了類似方法。畢竟,聯繫才是最重要的。對於DeepMind的深度學習專家來説,很明顯距離是讓神經網絡發揮作用更好的指標,科裏表示。“這只是深度學習的基礎部分,如果與決策相關存在不確定性,最好是讓神經網絡整合不確定性,並決定如何應對。”他説。與聯繫不一樣,距離包含了神經網絡可調整和使用的豐富信息。
DeepMind另一項讓人意外之處是引入第二個神經網絡,用於預測氨基酸對之間的角度。有了距離和角度兩個因素,DeepMind的算法就能夠算出蛋白質結構的大致輪廓。然後,系統使用另一種非人工智能算法改進結構。DeepMind將相關組件整合到名為AlphaFold的系統中,橫掃了2018年CASP(又稱為第13屆CASP,因為是兩年一度比賽舉辦第13次。)比賽裏結構最複雜的43種蛋白質中,AlphaFold在25種蛋白質中得分最高。第二名僅在三種蛋白質裏得到高分。研究結果震驚了全行業。如果説之前還有人懷疑深度學習究竟是不是解決蛋白質摺疊問題最有希望的方法,AlphaFold讓所有人再無疑問。
回到白板
儘管如此,DeepMind還遠沒有達到哈薩比斯的目標,即完全解決蛋白質摺疊問題。AlphaFold準確率只有一半,第13屆CASP的104個蛋白質中,準確度可以達到X射線晶體衍射水平的只有三個。“我們不只想在CASP競賽中奪魁,而是想真正解決問題。我們想打造對生物學家很重要的系統。”喬普説。
2018年CASP的結果公佈後不久,DeepMind就開始加倍努力。喬普負責擴大的團隊。團隊並未簡單地在AlphaFold基礎上改進,而是返回原點,集思廣益尋找完全不同的想法,他們希望新創意能夠幫軟件將精確度提升到更接近X射線晶體衍射級別。
喬普表示,接下來是整個項目中最可怕也最令人沮喪的時期之一,因為什麼辦法都沒有。“我們花了三個月,結果都達不到第13屆CASP的水平,開始真正感覺到恐慌。”他説。不過當時研究人員的嘗試出現了一些改進,沒到6個月系統已經比最初的AlphaFold有了明顯改進。之後兩年裏一直延續該模式,喬普説。先是三個月一無所獲,接下來三個月快速發展,接着又是平台期。
哈薩比斯説,DeepMind以前的項目也出現過類似模式,包括圍棋項目,還有複雜的即時戰略遊戲《星際爭霸2》項目。他説,公司克服問題的管理策略就是交替採取兩種不同的工作方式。第一種哈薩比斯稱之為“攻擊模式”,儘可能推動團隊,追求當前系統可以達到的極致表現。然後,全力以赴努力的效果似乎耗盡時,他就開始轉向所謂的“創新模式”。期間哈薩比斯不再對團隊施加壓力,容忍甚至期待出現暫時性的後退,從而為研究人員和工程師提供修補新想法和嘗試新手段的空間。他説:“要鼓勵人們提出儘可能多的瘋狂想法,還要頭腦風暴。”該模式通常能夠推動性能出現新飛躍,讓團隊切換回攻擊模式。
生日大禮
2019年11月21日,DeepMind蛋白質摺疊團隊的研究員凱薩倫•圖雅蘇那科年滿30歲。這一天也會因為另一個原因值得紀念。圖雅蘇那科擁有牛津大學(University of Oxford)計算生物學博士學位,在團隊裏負責為蛋白質摺疊人工智能開發新測試集,新款人工智能叫AlphaFold 2,是DeepMind為2020年的CASP競賽新開發的系統。那天早上她打開辦公電腦時,收到系統對一批大約50個蛋白質序列預測的評估,所有序列均為最近才添加到蛋白質數據庫中。她愣了一下,然後大吃一驚。AlphaFold 2確實一直在改進,但對該組蛋白質的預測結果驚人地準確。系統對好幾個蛋白質結構結構預測誤差在1.5埃以內,埃的距離單位相當於十分之一納米,或大約一個原子的寬度。
DeepMind的科學家凱薩倫•圖雅蘇那科幫助公司在蛋白質摺疊研究方面取得了進展。圖片來源:Courtesy of DeepMind自稱“團隊悲觀主義者”的圖雅蘇那科説,第一反應並不是高興而是有點想吐。“我當時很害怕。”她説。結果實在太好,她以為是自己犯了錯,可能準備測試集時無意中把人工智能在訓練數據裏見過的幾個蛋白質加了進來。如此一來AlphaFold 2基本上就可以作弊,輕易預測出準確的結構。圖雅蘇那科回憶説,當時坐在DeepMind自助餐廳俯瞰倫敦的聖潘克拉斯車站(St. Pancras Station),一杯接一杯地喝茶努力平復心情。隨後,她和其他團隊成員花了一整天,直到深夜才下班,之後幾天也是如此,他們坐在工作站旁埋頭梳理AlphaFold 2的訓練數據,希望找出錯誤所在。
然而一個錯誤也沒有。事實是,新系統在預測表現方面實現了巨大飛躍。AlphaFold 2與之前版本完全不同。人工智能不再只是各成分組合,一個用來預測氨基酸之間的距離,另一個預測角度,然後用第三個軟件聯繫起來。現在的人工智能用單一的神經網絡直接從DNA序列進行推理。雖然系統仍然接受進化信息,從而確定研究的蛋白質是否與以前見過的蛋白質有共同的祖先,並仔細檢查目標蛋白質的DNA序列與其他已知序列之間的一致性,但不再需要哪些氨基酸對共同進化的明確數據。“我們並未提供更多信息,反而減少了信息。”喬普説。系統可以自由地得出見解,即祖先何時可能決定蛋白質的部分形狀,以及何時可能徹底偏離。換句話説,系統根據經驗培養出直覺,就像老練的人類科學家一樣。
新系統的核心是“注意力”機制,顧名思義,注意力是讓深度學習系統專注於某組輸入,並對相關輸入加大權重。舉例來説,在識別貓的系統裏,系統可能學會注意耳朵的形狀,也會學習在鼻子附近尋找鬍鬚。喬普比較了AlphaFold 2的功能與玩拼圖遊戲,過程中“能夠將某些部分拼湊在一起而且非常確定,得到不同的本地解決方案,然後想辦法將相關問題連接起來。”喬普説,神經網絡的中層已經學會根據對DNA序列的分析推理幾何和空間排列,以及氨基酸對如何連接。
DeepMind曾經在128個“張量處理核心”上訓練AlphaFold 2,張量處理核心是在16塊專門用於深度學習的計算機芯片上創建的數字運算大腦,芯片由谷歌設計並在數據中心使用,公司稱連續運行了數週。(128個專用的人工智能核心大約相當於100到200塊強大的圖形處理芯片,可以在Xbox或PlayStation上呈現極其炫目的動畫效果。)公司表示,經過訓練的系統提取DNA序列後“幾天內”就能夠完成整個結構預測。
AlphaFold 2與前一代相比有個優勢,就是提供可信程度,即系統對結構裏每種氨基酸的預測都有信心分數。如果説AlphaFold 2可以切實幫到生物學家和醫學研究人員,這項指標至關重要,因為研究者需要清楚何時能夠合理依賴模型,以及何時需要更加謹慎。
儘管測試結果驚人,DeepMind仍然不能確定AlphaFold 2的預測效果。新冠病毒來襲時,公司才得到重要的線索。今年3月,AlphaFold 2可以預測出六種與SARS-CoV-2(引發疫情的病毒)相關但未被研究的蛋白質結構,後來科學家使用所謂低温電子顯微鏡的經驗方法證實了其中一種。由此能夠充分看出AlphaFold 2對現實世界的影響力。
驚人的結果
CASP比賽在5月到8月之間舉行。蛋白質結構預測中心發佈多批目標蛋白質,之後參賽方提交結構預測進行評估。今年比賽排名於11月30日公佈。
每次預測均可以得到“全球距離測試總分”,簡稱GDT的指標評分,該指標實際上看預測結果與通過實證方法(如X射線晶體衍射或電子顯微鏡)得到的結構接近程度,單位為埃。CASP的主席穆爾特表示,滿分是100分,如果得分能夠達到90分或以上,説明與實證方法相當。根據CASP組織者判斷的結構難度,蛋白質也會劃分不同的組。
穆爾特看到AlphaFold 2的結果時簡直不敢相信。他就像幾個月前的圖雅蘇那科一樣,剛開始的想法是出錯了。也許比賽中一些蛋白質序列以前發表過?又或者DeepMind也許設法獲得了未發佈數據的緩存?
T1042的計算機生成圖像,T1042是感染細菌病毒裏的部分蛋白質。2020年CASP競賽中,DeepMind的AlphaFold 2準確預測了該蛋白質的結構,這是人工智能在生物學和醫學研究應用方面的重大突破。圖片來源:Courtesy of DeepMind
T1037的計算機生成圖像,T1037是感染細菌病毒裏的部分蛋白質。2020年CASP競賽中,DeepMind的AlphaFold 2成功地預測了T1037的結構。圖片來源:Courtesy of DeepMind為了核實,他請位於德國圖賓的根馬克斯•普朗克發展生物學研究所(Max Planck Institute for Developmental Biology)的蛋白質進化系主任安德烈•盧帕斯幫忙驗證。盧帕斯讓AlphaFold 2預測一個自己確信沒有見過的結構,因為盧帕斯利用X射線結晶衍射從未成功觀測到該蛋白質的關鍵部分。近十年來,盧帕斯一直因為該部分缺失而傷腦筋,但就是觀測不到準確的形狀。盧帕斯説,利用AlphaFold的預測後,他重新查看X射線數據。“沒到半小時就得出了正確結構。”他説,“太令人吃驚了!”
2018年DeepMind在CASP中獲得成功以來,諸多學術研究人員紛紛湧向深度學習技術。結果,該領域其他方面的表現都有所提高。在中等難度目標方面,其他競爭對手的平均最佳預測GDT得分為75,比兩年前提高了10分。不過還是完全追不上AlphaFold 2,因為該系統預測蛋白質結構平均得分高達92,就算面對最複雜的蛋白質平均得分也有87。穆爾特表示AlphaFold 2的預測“與實證方法不相上下”,比如X射線晶體衍射。得出該結論後,11月30日星期一CASP發表了重大聲明:50年前的蛋白質摺疊問題已經解決。
諾貝爾獎獲得者、英國最負盛名的科學機構皇家學會(The Royal Society)現任主席文基•拉馬克裏希南表示,AlphaFold 2在蛋白質摺疊方面“取得了驚人的進步”。有AlphaFold 2相助,X射線晶體衍射和電子顯微鏡之類既昂貴又耗時的實證方法可能都會變成過去式。
蛋白質結構專家、曾任歐洲分子生物學實驗室歐洲生物信息學研究所(European Molecular Biology Laboratory’s European Bioinformatics Institute)主任的珍妮特•桑頓表示,DeepMind的突破可以幫助科學家繪製出整個人類“蛋白質組”,即人體內所有蛋白質。目前人體蛋白質中只有四分之一被用作藥物靶點,如果能夠掌握其餘蛋白質結構,就可以為研發新療法創造巨大的機會。她還表示,人工智能軟件還能夠推動蛋白質工程發展,從而推動可持續發展,幫科學家創造新作物品種,提升每英畝種植土地出產的營養價值,還可能研究出可以消化塑料的酶。
不過,當前的問題仍然是DeepMind如何應用AlphaFold 2。哈薩比斯表示,公司將努力確保軟件“最大程度發揮積極的社會影響”,他也承認公司尚未決定如何實現,只説明年某個時候將宣佈。哈薩比斯還告訴《財富》雜誌,DeepMind正在考慮如何圍繞系統開發商業產品或建立合作伙伴關係。“系統對藥物研發以及製藥巨頭作用都非常大。”不過他表示,商業產品的具體形式也尚未決定。
對於DeepMind來説,如果嘗試商業化就意味着踏上新徵程,而此前出售給Alphabet後公司還從來沒有擔心過收入。公司簡單成立了名叫DeepMind Health的部門,正在與英國國家醫療服務體系(U.K.’s National Health Service)合作開發應用程序,該應用程序能夠識別出存在患急性腎損傷風險的醫院患者。但新聞報道稱DeepMind的醫院合作伙伴違反英國的數據保護法向其提供數百萬患者的醫療記錄後,合作陷入了爭論。2019年,DeepMind Health正式併入新的谷歌健康部門。當時DeepMind表示,剝離健康業務可以專注自身的研究基礎,而不必分心在谷歌已然很擅長的領域(如數據安全和客户支持)成立商業部門。
當然了,即便DeepMind要推出商業產品,也不會是第一家嘗試商業化的人工智能研究公司。總部位於舊金山的OpenAI可能是最接近DeepMind的競爭對手,如今越發商業化。去年,OpenAI發佈的第一個商業產品,企業能夠使用人工智能界面將簡短的手寫提示組成連貫的長文本。該人工智能被稱為GPT,商業價值尚未得到證實,而DeepMind的AlphaFold 2可能對製藥公司或生物技術初創企業產生根本性的影響。在反壟斷監管者調查Alphabet之際,擁有商業上可行的產品可能是很好的保險,以防將來拆分Googleplex時DeepMind失去財大氣粗的母公司無條件支持。
有一點可以肯定,DeepMind在蛋白質摺疊領域的探索並未結束。CASP競爭只是圍繞預測單個蛋白質的結構。在生物學和醫學領域,研究人員真正關心的通常是蛋白質如何相互作用。一種蛋白質是如何與另一種蛋白質或與某種特定的小分子結合?酶如何分解蛋白質?莫爾特説,預測相互作用和結合很可能成為未來CASP競爭的主要關注點。喬普表示,下一步DeepMind打算應對相關挑戰。
而在蛋白質摺疊以外的領域,AlphaFold 2的成功肯定也會發揮影響,將鼓勵其他人在重大科學問題中應用深入學習。比如發現新的亞原子粒子,探索暗物質的奧秘,掌握核聚變或創造室温超導體。科裏表示,在天體物理學方面,DeepMind已經發揮了積極的作用。Facebook的人工智能研究人員剛剛啓動了深度學習項目,希望尋找新的化學催化劑。蛋白質摺疊是基礎科學當中第一個由人工智能解決的謎團,但肯定不會是最後一個。
財富中文網