GPT-4搞科研登Nature!_風聞
量子位-量子位官方账号-7小时前
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
AI大模型“化學家”登Nature!
能夠自制阿司匹林、對乙酰氨基酚、布洛芬的那種。
就連複雜的鈀催化交叉偶聯反應,也能完成!
要知道,2010年諾貝爾化學獎獲得者就因為對該反應的研究才獲獎的,這類反應可以高效地構建碳-碳鍵,生成很多以往很難甚至無法合成的物質。

而現在名為Coscientist,基於GPT-4等大模型的AI系統,可快速準確地自主完成檢索信息、規劃及設計實驗、編寫程序、遠程操控自動化系統做實驗、分析數據的一整套流程。

一位主頁標註自己是化學家的網友表示:
栓Q,你們創造了更多失業的博士生。

那麼Coscientist究竟是如何做到的?
“化學家”Coscientist長啥樣?
Coscientist由卡內基梅隆大學的研究團隊開發。
前不久谷歌DeepMind造的AI“化學家”也登上了Nature,號稱一口氣能預測220萬種新材料。
而現在Coscientist則是實打實能自主完成後續所有實驗流程。
能夠完成如此複雜的實驗任務,關鍵在於多模塊交互的系統架構。

Coscientist內含五大模塊:Planner、Web searcher、Code execution、Docs searcher、Automation。
其中Planner模塊是整個系統的智能中樞,它基於GPT-4打造,負責根據用户的輸入,調用和協調其它模塊來規劃和推進整個實驗。
Planner可以發出GOOGLE、PYTHON、DOCUMENTATION和EXPERIMENT四個指令。
GOOGLE指令負責使用Web searcher模塊在互聯網中檢索關於實驗的信息,Web searcher本身也是一個大模型。
PYTHON指令控制Code execution模塊,Code execution是一個隔離的Docker容器,提供一個獨立的Python執行環境,可以完成實驗相關的計算工作。
DOCUMENTATION指令控制Docs searcher模塊,也是用來為中樞提供信息。
但與Web searcher不同,Docs searcher是用於文本檢索和文檔理解。它可以定位實驗設備的技術文檔,比如機械手編程手冊,通過文本挖掘提供給Planner模塊必要的實驗參數及操作細節。
而後,Automation模塊負責自動化連接實際實驗設備的API,將Planner制定的實驗方案轉換為設備控制代碼,下發執行,完成實驗操作。
比如,在“雲實驗室”中遠程操控移液機器人開展實驗。

如此一來,假設要求Coscientist合成某種物質時,Coscientist會在互聯網上搜索合成路線;然後設計所需反應的實驗方案;下一步編寫代碼來指導移液機器人;最後運行代碼,使機器人執行其預定的任務。
值得一提是,Coscientist還可以進行迭代優化,從反應結果中學習,並建議修改方案來改進實驗。
總的來説Coscientist能完成六大任務:
根據公開數據規劃已知化合物的合成;
有效搜索和瀏覽大量的硬件文檔;
使用文檔中的信息在雲實驗室執行高級命令;
用低級指令精確控制液體處理儀器;
處理需要同時使用多個硬件模塊並整合不同數據源的複雜科學任務;
通過分析之前收集的實驗數據解決優化問題。
成功完成鈀催化交叉偶聯反應
Coscientist表現究竟如何?研究人員對多個模塊進行了測試。
其中,為測試Coscientist設計化學反應流程的能力,研究團隊要求Coscientist通過檢索學習分別生成阿司匹林、對乙酰氨基酚和布洛芬等藥物分子。
並且還設置了GPT-3.5、GPT-4、Claude 1.3、Falcon-40B-Instruct不同模型的比較。

基於GPT-4的Web Searcher顯著改進了合成計劃,在對乙酰氨基酚、阿司匹林、硝基苯胺和酚酞的所有試驗中都達到了最高分(上圖b,數字“5”代表生成了一個非常詳細且化學上準確的操作步驟)。
重點還要看Coscientist的一體化能力。為此,研究人員還設計了催化交叉偶聯實驗。
研究人員設置了可利用的實驗設備,包含:OpenTrons OT-2液體處理機器人;數個微板,包括放置反應物的源微板和放置在加熱震盪模塊上的目標微板。
源板上準備了實驗所需的試劑,包括己烷基碘、溴苯、氯苯、苯基乙炔、苯硼酸等原料,還有催化劑、鹼和溶劑。
Coscientist的目標是利用這些試劑成功設計和運行兩種常見鈀催化偶聯反應Suzuki反應和Sonogashira反應。
Coscientist首先通過Web searcher模塊搜索確定Suzuki反應和Sonogashira反應的最佳反應條件,如温度、當量比等參數。

然後合理選擇了不同的試劑,例如Suzuki反應時優先選擇溴苯而不是氯苯。同時Coscientist提供選擇的化學依據,如反應活性。
接着,Coscientist調用Code execution模塊,根據各反應物的濃度和當量計量計算所需體積。
生成控制機器人進行移液操作的Python代碼,指定源孔板與目標孔板之間的轉移體積。

但中間出現個小插曲,最初使用的加熱震盪模塊的方法名錯誤。
之後Coscientist迅速查閲了Opentrons設備文檔糾正了方法名,重新生成正確代碼,成功完成了Suzuki反應和Sonogashira反應。

最終,產物通過GC-MS技術驗證,檢測到目標產物的特徵質譜信號,證實目標產物生成。
論文鏈接:https://www.nature.com/articles/s41586-023-06792-0