“從0到1”的原始創新?從基於AI神經網絡的蛋白質從頭設計説起_風聞
越国居民-02-06 14:48
【本文由“guan_16109812892548”推薦,來自《首次成功從零生成原始蛋白質,AI做到了》評論區,標題為小編添加】
“從0到1”的原始創新?從基於AI神經網絡的蛋白質從頭設計説起
2020年底,AlphaFold2在高精度蛋白質結構預測上取得了革命性進展。在這個後AlphaFold時代,大家自然而然地想要解決一個實用的反問題:**根據某個功能的結構,設計出相應的、能夠摺疊成這樣結構的蛋白質序列。**蛋白質從頭設計已經有二十年的歷史,長期以來,研究人員是通過設計和改進能量函數來搜索、優化可摺疊成指定結構的序列,雖然有相當一部分成功的例子,但是總體來看成功率不高,使得這類蛋白質設計方法無法被廣泛地使用 (Li et al, 2013,Liang et al, 2022)。AlphaFold2採用AI深度神經網絡成功地預測了高精度的蛋白質結構,使基於AI的蛋白質從頭設計這個反問題成為一個新熱點。現在,幾乎每隔一小段時間就有一篇AI蛋白質設計的預印論文出現。
在如此強大的AI深度學習方法出現之前,我們課題組率先想到用神經網絡來進行蛋白質設計(Li et al, 2014)。這個“從0到1”的原創工作是我在印第安納大學的博士生李職秀,與楊躍東(博士後,現為中山大學國家超算廣州中心教授)、Eshel Faraggi(博士後)和詹劍(博士後)合作完成的。這個設想起源於我們的一項發現:一個蛋白結構相對應的可能序列譜(sequence profile)與該結構的短片段(short fragment)在蛋白質結構庫中相似結構短片段的序列相關。而這個短結構片段所導出的序列譜可以用來改進蛋白質基於模板的預測(Zhou & Zhou, 2005)和蛋白質設計(Dai et al, 2010)。
**既然這樣的短結構片段導出的序列有用,為什麼不直接使用整個結構來預測序列呢?**這在當時是一個比較大膽的設想,因為要實現這一設想需要同時預測20個氨基酸的可能性,對訓練的要求極高,結果不一定會好,而且容易過度訓練。於是,我們設計了一個當時所能做到的、最多隻有兩層隱藏層的神經網絡,把短結構序列譜和DFIRE預測的統計能量作為輸入特徵,小心地設計訓練集和測試集。我們把這一方法稱為SPIN(Sequence Profiles by Integrated Neural Network),並用已知結構進行了測試,證明它能夠恢復30%原序列的氨基酸類型。而30%的序列相似性往往就足夠摺疊成同樣的結構了,和當時基於能量函數的RosettaDesign方法所能獲得的序列相似性一樣。
2013年,我來到澳大利亞格里菲斯大學,我們組有幸與格里菲斯大學的機器學習名家Kuldip
Paliwal教授組合作,開始利用深度學習(增加到三層隱藏層),並使用了距離和角度作為新特徵,改進了SPIN這個方法,實現了34%原序列氨基酸的恢復率(O’Connell
et al, 2018)。但是,基於AI神經網絡的蛋白質設計,作為一個研究方向,一直是冷冷清清的。從2015到2017年間,我們這篇論文(Li
et al,
2014)在谷歌學術上沒有任何人引用,到了2018、2019年也僅僅有2-3篇引用,2020年才開始以每年10篇以上的引用量逐漸遞增。**從這裏可以看出,走新路往往是孤獨的,而且孤獨有可能是持久的。**在沒有強大的AI深度學習出現之前,這個方向並不被看好,因此沒有人有興趣。在強大的AI深度學習和AlphaFold出現之後,這個方向才開始被追捧。現在,強大超深的神經網絡在日新月異地提高原序列氨基酸的恢復率。根據一些預印本文章,目前已經到了40-50%,基本解決蛋白質設計這個問題似乎指日可待。
我們SPIN這個方法的意義和影響,在當時並不能馬上看出其前景,因為沒有人知道AI深度學習在不久的將來會變得如此強大,所以相關成果也只能發表在低影響因子的專業雜誌上(如Proteins《蛋白質》,目前影響因子為3.756)。**由此可見,一個原創的設想在剛開始的時候很可能是一隻醜小鴨,因為另類而難以被人欣賞,也許需要多年的成長才知道最後會變成什麼。正如很多諾貝爾獎的獲獎工作,最初也沒有能夠發在CNS這些雜誌上一樣。**在這個過程中,很有可能得不到同行的認可和基金的資助,我在這個方向並沒有獲得任何經費資助,完全是憑興趣,靠其他經費實現的。
現在全國上下都在推動“從0到1”原始創新的基礎研究,但是並沒有神奇妙法可以判斷出哪個是醜小鴨,哪個是假天鵝。如果可以判斷,那一定是因為已經可以初步看出天鵝的樣子了,也就是説不是“從0到1”(從無到有),而很可能是“從1到N”(從有一點點像到更像天鵝)的基礎研究。因為可行性(有苗頭)是一個申請經費的標準,所以大多數項目的基金實質上都在資助從1到N的研究。
那應該怎樣來促進從0到1的基礎研究呢?我認為可以從四個方面着手:
1)**像天使輪投融資一樣,廣種薄收,強調新穎性和多樣性。**新方法即使沒有目前最好的方法好,但誰能知道新生兒未來的發展呢?只要多生多養,其中一定會有奇才能將的。
2)**放寬項目經費的管理。**允許20%的經費用在研究者感興趣的其它項目,容許去試錯。研究經費在國外常常被稱為Grant(贈予),而在國內多數是需要滿足條條框框的Contract(合同)。條條框框減少競爭,限制創新。有遠見的公司(例如Google)允許每個人一週有一天做自己想做的事情,而不是做公司的項目。需要贏利的私人企業都能讓員工去自由發揮,體制內主導的科研項目是不是可以做得更好?
3)**支持敢於試錯的、有原創能力的人,而不是具體的科研項目。**現在國內各級政府的人才項目還真不少,但是國家級的人才項目的成功率太低,僧多粥少,並且常常一人多帽,集中在少數、同一批人的手裏,資源越集中,創新會越少,原創需要許多人從不同角度去嘗試!
4)**原創評審應該從新穎性和多樣性出發。**怎樣判斷一個人的過去和未來的原創能力,是一個亟需解決的大問題。從上述故事以及過往諸多原創突破性工作例子可以看出,在高影響因子的CNS上發表文章不是一個判斷“從0到1”原創的好標準。應該讓評判方法從方法新穎性和多樣性出發,讓更多的、真正做原創的、不同類型的研究人才有更多的機會去做他們想做的事情。
最後,如果你希望想別人沒有想過的,做別人沒有做過的事,探索具有原創的基礎研究和應用前沿,我們組張開雙臂歡迎你!無論是分子生物、細胞生物、軟件、硬件、AI生物計算還是化學合成方向,我們需要博士後、助理研究員、和副研究員的各級優秀人才,關於我們在深圳灣實驗室的交叉學科團隊,詳細可見http://zhouyq-lab.szbl.ac.cn。
【感謝】感謝密蘇里大學許東教授、昆士蘭科技大學李職秀研究員、中山大學楊躍東教授的閲讀和建議。