AI會讓科學家失業嗎?_風聞
越国居民-05-16 19:01
近日,上海人工智能實驗室及其他幾家科研機構聯合發佈全球中期天氣預報大模型“風烏”。基於再分析數據驗證表明,“風烏”比傳統物理模型的10天預報誤差降低了19.4%。
全球中期天氣預報以預測未來14天內天氣狀態為目標。此前有研究表明,因為大氣系統中物理過程的複雜性,及求解大氣模型所需資源規模巨大,全球中期天氣預報的有效性每10年才提高1天。
上海人工智能實驗室科學家白磊在回覆《中國新聞週刊》的採訪中介紹,“風烏”將全球中期氣象預報任務建模為一個多模態、多任務學習的問題,並以此為基礎來設計人工智能的預報方法。基於回溯預報表明,“風烏”的性能超過了世界著名人工智能公司DeepMind最新發布的模型,並突破性達到了10.75天的可用預報性能。
用人工智能算法建模全球大氣系統,只是AI for Science(人工智能驅動的科學研究)的應用之一。在很多領域,AI正以較以往數倍甚至數萬倍的效率,改變多學科的研究。受訪科學家們指出,現代科學日益複雜化,而AI相關技術近年來有了快速突破,使得AI for Science成為國際科研的一個前沿方向。

3月末,科技部、自然科學基金委聯合啓動“AI for Science”專項部署工作。科技部有關負責人表示,中國在人工智能技術、科研數據和算力資源等方面有良好基礎,需要進一步加強系統佈局和統籌指導,以促進人工智能與科學研究深度融合、推動資源開放匯聚、提升相關創新能力。
“從蛋白質結構預測到氣候系統建模,從引力波探測到理解宇宙,人工智能對科學探索的長期影響才剛剛開始。”數據科學領域知名的機構Dataconomy在2022年11月的一篇文章中寫道。
過去完全無法想象的效率
處理數據的方式會改變科學研究的行為,中國科學院物理研究所研究員劉淼對此感受很深。作為一名材料科學家,他説,10多年前他讀博期間,完成三四個材料的研究就算順利。如今,基於人工智能、超級計算等技術的進步,在幾十萬種可能性中篩選甚至預測不同元素組成的材料,判斷其材料屬性,不必再一個一個去計算、做實驗,只需點幾下鼠標。
劉淼説,5年前,包括他在內的一些科學家預判,隨着技術的進步,材料學的下一步,不應僅僅盯着個別材料去進行計算、驗證,而是運用數據幫助科學研究。他所在團隊開發了一個叫作“Atomly”的材料數據庫,包括30餘萬個無機晶體材料的數據。
他介紹,幾乎自然界所有物質的屬性,都是電子的某種行為。早至1960年代,學界已經發現,可以通過求解量子力學方程的方式,計算電子的行為,預測材料性質。得益於超級計算機帶來的算力提升,對材料的計算大大加快,這些奠定了“Atomly”的數據基礎;此外,數據庫裏很多無機晶體材料的結構是先利用人工智能模型進行預測,有了初步判斷後才進入下一步的精確計算。
有了強大數據庫及高通量計算,劉淼説,任何一組元素組合中,科學家都可以快速搜索可能的新化合物,並預知其物理性質。在“Atomly”數據庫,如果點擊氧和鈦兩個元素,就會出現280種兩個元素可能構成的化合物。如果點擊其中一個,就能進一步看到其原子空間排列結構、介電性、力學性能等具體數據。如果有學者想在這種化合物中找尋一種材料,可以先看這些指標、性質,再進行下一步研究。
這種效率提升之大,他形容,好像以前尋找理想的材料是釣魚,如今是“撒了網,一下子把魚都撈上來那種感覺”。
今年3月8日,來自美國羅徹斯特大學的助理教授蘭加·迪亞斯宣稱,該團隊發現了一種由氫、氮和一種名為鑥的稀土元素混合製成的材料,可以在21℃和大約1GPa(約等於一萬個標準大氣壓)的壓力下實現室温超導電性。這一成果當時在圈內外引起很大轟動。
為了驗證這一結果,劉淼團隊3月9日就快速地開展了計算。利用前述數據庫,他們用了不到一週時間就計算出1500多個化合物,3月21日就提交了論文,結果發現氫-氮-鑥無法形成穩定的三元化合物。也就是説,該室温超導論文結果有待商榷。劉淼説,這是過去完全不敢想象的速度。
2022年末,一篇發表在《The Gradient》雜誌上的文章寫道,預測蛋白質摺疊,尋找新的超導體材料、疫苗或任何其他滿足特定需求的材料時,它們背後的母科學都是化學。該雜誌於2017年成立,創辦者為美國斯坦福大學AI實驗室的一羣學生和研究人員。
傳統上,化學研究通常在配有試管、燒瓶的實驗室中完成。這篇文章寫道,隨着當前人工智能、以數據為中心的技術進步及數據量不斷增長,我們可能正目睹一種變化:計算方法不僅用於協助實驗,還用於指導實驗。
不僅如此,AI還能成為實打實的“化學家”。比如,2020年7月,英國利物浦大學的研究人員開發了一款人工智能機器人化學家。這款機器具有人形特徵,可以在標準實驗室中獨立工作,像人類一樣使用各種實驗儀器。首次測試中,這個1.75米高的AI機器人8天裏獨立完成了668個實驗,並研發出了一種全新的化學催化劑。這一成果當時以封面文章形式發表在《自然》雜誌上。
在藥物研發領域,AI崛起帶動了一批AI製藥公司的興起。諮詢公司麥肯錫估計,全球有近270家公司致力於AI驅動的藥物發現。
2014年,三位在麻省理工學院從事量子物理學方向研究的博士後在深圳創立了晶泰科技公司。創始人温書豪告訴《中國新聞週刊》,AI可以在大小分子藥物發現、藥物自動化合成等多個環節提升效率。比如,AI機器人可以用算法將400台機器連接在一起,同時開展實驗,每小時就能探索幾千種反應條件,篩選催化劑,可以24小時無間斷完成標準化的實驗操作和數據收集分析。它的效率是併發式的、規模化的,人類實驗員難以做到。
新冠疫情中大放異彩的口服抗病毒特效藥Paxlovid,其研發過程就有AI的貢獻。高純度、容易結晶的、溶解度好的穩定晶體,是一款藥物的重要組成部分。藥物結構設計上,Paxlovid就使用了AI平台預測的晶體結構,這一過程只花了六週,大大低於傳統方法所需時間。温書豪強調,藥物上市時間對於疾病控制和治療、製藥公司的市場優勢來説,都舉足輕重。
ChatGPT的發佈,無疑是今年科技領域最令人興奮的成果之一,也掀起了新一波AI浪潮。
在中國科學院自動化研究所所長徐波看來,AI for Science、預訓練大模型等正在引發新一輪AI創新熱潮。如果將“AI for Science”比作一個專業理科生,那麼,ChatGPT類似於通才的、文字能力很強的文科生。不過,ChatGPT對於科學研究開展也有很大促進作用。除了幫人們潤色論文、撰寫摘要等,多位受訪者都談到,ChatGPT還可以對各個學科的文獻進行很好歸納、總結,甚至會啓發科學研究。
北京大學定量生物學中心研究員裴劍鋒接受《中國新聞週刊》採訪時指出,過去中國對建立數據體系的重視不足。今後,依靠ChatGPT強大的自然語言處理能力,可以加速相關知識體系和數據庫的建立。雖然ChatGPT目前還達不到一個人類專家讀文獻的水平,但是專業自然語言處理AI的發展,有可能自動完成文獻數據摘取和分析等工作,效率比人類高非常多。
徐波也提到,ChatGPT等大模型可以幫助領域內的科學家快速找到其感興趣的知識、文獻和一些關鍵的實驗結果。
人工智能在科學領域的應用不勝枚舉。比如,在腦科學領域,據《華爾街日報》4月初的報道,美國科技巨頭之一的META公司正在開發一個系統來讀取人腦中的想法。這是Meta AI實驗室一個名為“大腦信號讀取”的項目。研究人員利用腦電圖和腦磁圖兩種技術獲取數據,讓自主監督學習AI工具進行訓練,訓練數據集包含169名志願者在聽到有聲讀物和單句時的大腦活動錄音。通過近150個小時錄音,算法像讀心術一樣能推斷出人們最有可能聽到的詞。
AI for Science:為什麼是現在?
徐波告訴《中國新聞週刊》,科技部“AI for Science”專項部署工作將佈局前沿科技研發體系,建立一些面向重大科學問題的人工智能模型與算法,利用人工智能技術帶動科學研究的知識發現。這過程中,將建設很多學科都可使用的一些計算平台,這些平台用來跨尺度建模、高精度仿真、微分方程求解等。
科學研究中,AI有多火?一位理論化學背景出身的科學家告訴《中國新聞週刊》,他的導師近來跟他説起,現在哪怕是純底層、純基礎的科學領域,比如理論化學、理論物理,如果項目申請書裏面不提AI,都難以申請到經費。他説,“大家都覺得,AI是個超級工具,如果沒有用上,可能對研究的理解深度和效率都會帶來影響。”
2022年,在中關村論壇“AI for Science智能峯會”上,中國科學院院士、北京大學前沿交叉學科研究院執行院長湯超分享了國內這一概念提出的經過。他説,幾年前,鄂維南找到他,商量是否可能在北大設立一個學科交叉項目,來探索機器學習在不同科學和工程領域的應用,於是他們為其取了一個名字,叫“AI for Science”。2018年8月,一場有關“AI for Science”的會議在北大召開。鄂維南是中國科學院院士、北京科學智能研究院院長、北京大學國際機器學習研究中心主任。
北京大學定量生物學中心研究員裴劍鋒是2018年參會的科學家之一。其研究方向是用計算的方法做藥物設計,屬於國內最早從事計算機輔助藥物設計的學者之一。他告訴《中國新聞週刊》,北大這場會議前,人工智能與科學的結合已有一段時間。
以他所在的交叉學科為例,他説,2012年,國際上已開始有一些關於AI、化學、藥物設計相結合的初步摸索。2014年,他所在團隊也開始做相關工作,並且在2015年發表了國內第一篇將AI用於藥物設計的論文,實際上已經是AI for Science的一種實踐。
從2020年開始,AI for Science進入了集中爆發階段。在國內,已有一些公司致力於開發科學計算平台、科研AI模型等。
如今,AI幾乎可以和深度學習畫等號,AI的幾大領域,包括自然語言處理和計算機視覺(CV)等,都繞不開深度學習。儘管深度學習的基礎——人工神經網絡在1950年代已經提出,但是,直到近十來年間,高性能的算力和互聯網上產生的大量數據,才使得AI領域從業者們能大量訓練神經網絡,不斷拓展機器學習的深度。
另一邊,基礎科學的發展也亟待一個更強大的工具。上海人工智能實驗室領軍科學家歐陽萬里在接受《中國新聞週刊》採訪中談到,地球科學方向積累了非常多的觀測數據,存在大量計算問題。然而,由於地球系統的複雜性,很多方向的機制和原理都還不夠清晰。人工智能技術強大的非線性擬合能力和靈活的建模能力,為解決領域中的一些“硬骨頭”問題提供了一種新的、強大的工具。比如,大氣模擬、地震監測和預測就非常適合使用人工智能來解決。
以上海人工智能實驗室發佈的“風烏”大模型為例,歐陽萬里表示,運用AI模型進行全球中期氣象預報,過去受限於算力和高效並行深度學習架構,“其難度是我們在兩三年前不敢想象的”,但如今可以取得很好的效果。
AI for Science興起背後,更重要的是它順應了現代科學複雜化、交叉化的趨勢。徐波指出,依靠科學家人腦思維可以解決的科學問題,很多已經解決了。如今,科學要面對的是生物、物理、化學等基礎科學中跨尺度的複雜系統。過去以人作為認知基準的範式需要向更高維度邁進,人工智能在其中將發揮關鍵作用。
比如,當前在對大腦的研究中,微觀尺度上關於每個神經元的結構、功能等具體信息已經研究得比較透徹,宏觀上大腦的分區以及不同腦區間的連接機制也已研究得比較清楚。然而,最為複雜的介於微觀與宏觀之間的尺度上,即這些神經元如何在整體上產生了人類的智能還未得到充分的解答。
2020年3月,中央編制委員會辦公室下發文件,批覆同意自然科學基金委設立交叉科學部,負責統籌交叉科學領域整體資助政策、組織擬定發展戰略等方面的工作。北京大學前沿交叉學科研究院執行院長湯超指出,交叉科學部成立以來的第一個重大研究計劃,就是AI for Science方向。
受訪學者們指出,AI for Science以前所未有的方式,將不同學科、不同背景研究者們聯繫在一起,並且進一步弱化了科學和技術的界限。裴劍鋒談到,AI與科學的結合突出了工程技術在科學研究當中的作用,比如AlphaFold能產生科學突破,工程團隊在裏面起了很大作用。
上海交通大學科學史與科學文化研究院院長李俠曾在採訪中指出,從1960年代開始,隨着解決的科學問題變得越來越複雜,以及整個科技知識生產條件的變化,科學研究需要更多團隊合作。“我覺得小規模自由的科學探索依然非常重要,但是,當面臨複雜和較大的科學問題時,大團隊緊密的聯合攻關,在AI for Science時代可能會成為更常用的方式。”裴劍鋒表示。
AI能帶來真正的創新嗎?
憑藉其日益強大的能力,AI已經如此深刻影響着科學的進展。國內AI for Science領域的牽頭學者們,比如鄂維南,認為這是“一場正在發生的科技革命”。一個根本性問題是,這種數據驅動的研究方法,會成為一種新的科研範式、帶來真正的創新嗎?抑或它只會強化已知的理論,甚至阻礙知識邊界的突破?
2009年,美國著名理論物理學家、諾貝爾獎獲得者菲利普·安德森在《科學》雜誌上發表了題為《機器離科學革命還有距離》的文章。他指出,科學實踐分為兩類,一類是大部分科學家大部分時間都在做的常規科學,它只是在充實、完善已有科學範式的結果;還有一類就是偶爾發生的科學革命,帶來新的科學範式。安德森認為,機器也許可以對前者有貢獻,但他看不見有任何機制可以讓機器來創造一個科學革命。
湯超對此並不十分認同,他認為,AI是否能發現新的科學規律、引發科學革命,是一個很值得探索的問題。他説,AI for Science應該有三個層次的含義。首先就是大家當下在做的事情,即將深度學習用於不同的場景、不同的學科當中,解決的是比較具體的問題,影響比較大,見效也比較快;第二個層次,是利用AI來發現新的科學問題,比如,用大量的行星運動數據來訓練AI,AI應該很容易就能預測行星的軌道,以及將來任何時刻行星在軌道上的位置;最後,AI for Science還意味着去探索人工智能背後的科學原理。
在晶泰科技創始人、董事長温書豪看來,AI for Science正呈加速度發展,當技術跨過一個閾值點的時候,可能所使用的科學研究方法、發現問題的方式就和現在不一樣了,能為研發工作帶來根本上的改變,也帶來全新的可能。
中國科學院自動化研究所所長徐波認為,“ChatGPT可能會啓發研究人員產生新的、想不到的實驗方案及實驗步驟等,有時甚至會超出學者的思維定勢。”
不過,現實是骨感的,人工智能驅動的科學研究目前依然存在挑戰。AI推動科學研究最知名的成果,應當屬AlphaFold,該成果不僅讓蛋白質結構預測研究走入一個新階段,也將人們對“AI for Science”的關注推向高潮。
2022年7月,DeepMind公司與歐洲生物信息研究所的合作團隊公佈,他們利用人工智能系統AlphaFold預測出超過100萬個物種的2.14億個蛋白質結構,幾乎涵蓋了地球上所有已知蛋白質。在它出現之前,科學家們解析的蛋白結構只覆蓋了17%的人類蛋白序列;它出現後,98.5%的人類蛋白的結構已被其預測出來。
然而,以藥物研發為例,裴劍鋒説,這是一個遠比蛋白質結構預測複雜得多的問題。在化學和藥學領域,AI正在發揮着重要的作用,但目前還沒有誕生AlphaFold這樣突破性的里程碑事件。
諸多困難使得AI製藥至今面臨着成功率低的瓶頸。一位不願具名的製藥界學者告訴《中國新聞週刊》,首先,因為生物體系太複雜,要使用AI模型對其進行模擬,以瞭解一款藥物對人體產生的影響,需要做很多簡化,導致很多精度和準確性的丟失。很多藥物研發的AI模型,在大規模的數據統計中,並沒有產生具有顯著統計學意義的結果。
再比如,ChatGPT大模型的成功,一個關鍵原因是引入了強化學習的機制,對AI的回答進行人類打分,使得它在眾多可能的回答中選擇那些更加符合人類的預期的答案。然而,在藥物研發領域,要判斷一個分子的優劣,情況要複雜得多。今年年初,水木未來CEO郭春龍在接受媒體採訪時曾説過,不像ChatGPT的強化學習,給一個蛋白質的序列加上標籤,往往需要大量的實驗,成本要高很多。
數據是更加嚴峻的限制。前述製藥界科學家指出,即使是一個大型藥廠積累幾十年的數據,對一個AI大數據模型來説,數據量還是不足的。因為化合物種類太廣了,大約是10的200次方,即便人類能積累100億個數據,也只是10的10次方,相較之下簡直是“九牛一毛”,嚴重不足的數據使得AI製藥模型的泛化能力受到很大限制。
今年的一場論壇上,創新藥物研發平台百圖生科副總裁瞿佳潤談到,相比起算力和算法,在AI for Science中,最重要的挑戰還是數據,尤其是在生物行業。AI只是一個工具上的變化,並不能扭轉一些本質上的問題。
中國科學院物理研究所研究員劉淼也強調,就拿他所在的材料科學領域來説,現在業界開展材料數據研發的機構很多,但多數都是基於一些公有的數據集,並沒有自己的核心競爭力。
就在4月18日,AI製藥先驅公司Relay Therapeutics披露了其抗腫瘤抑制劑RLY-2608的初步臨牀數據。從這款藥物的初步臨牀數據來看,其安全性比較有優勢,但療效遠未達到預期,16例受試患者僅1例有陽性結果,導致其股價一天大跌36%。
不管效率如何提升,業內達成共識的是,AI不會取代科學家。正如温書豪所説,偉大的數學家會問為什麼1+1=2,然而AI不會。AI會成為超級工具,會幫助人類記住無法記住的知識、無法計算的複雜方程,但是,深度的思考和提問的能力,人依然是獨特而不可替代的。
今年2月,發表在《自然》網站的《AI如何改變數學》一文中,美國聖塔菲研究所的計算機科學家和認知科學家梅蘭妮·米切爾表示,數學家暫時還不會丟飯碗,除非AI的一個主要缺陷能被攻克——即它們還無法從具體信息中提取抽象概念。“AI系統或許能證明定理,但你首先要提出這些定理背後有意思的抽象數學概念,這比證明定理難多了。”
發於2023.5.15總第1091期《中國新聞週刊》雜誌
雜誌標題:AI如何變革科學研究?
記者:彭丹妮