新技術助力生命科學研究
作者:张田勘
【新聞解讀】
新技術的應用給生命科學帶來了新機遇。日前,英國《自然》雜誌和美國《科學》雜誌同時刊發人工智能軟件測序蛋白質結構既快又精確的研究結果——兩款新型人工智能系統被宣佈能夠精準預測蛋白質結構,它們分別是英國深度思考(Deep Mind)公司研發的阿爾法摺疊2(Alpha Fold2),以及華盛頓大學蛋白設計研究所David Baker教授課題組的玫瑰摺疊(RoseTTAFold)。
這很容易讓人聯想到阿爾法狗(Alpha Go)。阿爾法狗被人們所熟知,是因為其連續戰勝多名世界頂級棋手,收穫了公眾的關注。也因此,戰勝了人類智慧的阿爾法狗被視為人工智能的重要成果。實際上,相較於阿爾法狗,阿爾法摺疊2和玫瑰摺疊雖不出名,但其存在價值對人類而言更具意義。
阿爾法摺疊2和玫瑰摺疊作為一個AI軟件,其最大作用是既快又準地測定蛋白質的形狀,尤其是3D形狀。我們知道,生命的本質是蛋白質,蛋白質又由氨基酸按一定順序結合形成的多肽鏈組成,而且它們從一維到二維再到三維,以無數方式摺疊成各種精緻形狀,才能完成各種功能和發揮重要作用。
人類蛋白質有成千上萬種,其他物種的蛋白質更是多達幾十億種,包括細菌和病毒的蛋白質。過去,人類只能用低温電子顯微鏡(CryoEM)、核磁共振(MR)和X射線晶體學等手段來測定蛋白質結構,而且要經過大量試錯才能最終確定其結構。即便如此,有些蛋白質結構還測不出來,如在蛋白質數據庫(PDB)中,有4種蛋白質無法用MR測定結構,包括牛屬甘氨酸N-酰基轉移酶、細菌氧化還原酶、細菌表面層蛋白(SLP)和來自真菌平革菌屬金孢子菌屬的分泌蛋白。
蛋白質結構為何如此重要呢?原因之一是大量疾病與蛋白質的摺疊形狀有千絲萬縷的聯繫。例如新冠病毒的棘突蛋白(S蛋白)的摺疊形式決定了它入侵人體細胞的速度和致病能力,普里昂蛋白的摺疊形式決定了對包括人在內的哺乳動物的傳染性海綿狀腦病的致病力和致命性。遺憾的是,雖然人類已經測序人和其他物種的數10億計的蛋白質的氨基酸序列,但截至目前,只有約10萬個蛋白質的結構已經用實驗方法得到了解析。
從理論上看,一個蛋白質從一維到三維有無數的摺疊方式。認識和精確測定蛋白質的構型既要耗費大量的時間和精力,同時也不一定能測得準,也造成了藥物、疫苗研發和疾病治療的舉步維艱。如現在的新冠肺炎,儘管有疫苗了,但病毒蛋白質會頻繁變異,如果不能及時、準確地認知其變異結構,就難以再研發新的疫苗。迄今,還沒有有效治療新冠肺炎的藥物,原因之一也是對病毒蛋白質結構認知不清。
既如此,讓AI來幫助人們認識和精確測定蛋白質的結構就具有重大意義,並且非常實用。以阿爾法摺疊2為例,它測定的大部分蛋白質的結構非常準確,不僅與實驗方法測得的蛋白質結構的精確度相同,而且遠超解析新蛋白質結構的其他方法。阿爾法摺疊2測定的組成蛋白質主鏈骨架的疊加原子之間的距離中位數(95%的覆蓋率)為0.96埃(0.096納米),而其他成績排第二的方法只能達到2.8埃的準確度。玫瑰摺疊是一個“三軌”神經網絡,能夠兼顧蛋白質序列模式、氨基酸如何相互作用以及蛋白質三維結構。在這種模板中,蛋白質的信息在一維(氨基酸序列)、二維(距離)和三維(座標)之間來回流動,從而推斷蛋白質化學部分與摺疊結構之間的關係。可以説,有了阿爾法摺疊2和玫瑰摺疊,測定蛋白質結構就輕鬆多了,也為揭開生命現象和本質,以及研發無數戰勝疾病的藥物、疫苗和療法提供了尖端武器。
我們相信,隨着時間的推移,將有更多新的科學方法、新的實驗手段投入使用,必將極大地推動生命科學的進展。
(作者:張田勘,系科普作家)