“玩轉”17億個小分子,盤古大模型家族又添新成員_風聞
懂懂笔记-懂懂笔记官方账号-2021-09-23 20:53
AI正在成為千行百業智能化的新動能。但是在產業初期,不同行業、不同場景對AI的需求既複雜且碎片,同時AI人才也相對稀缺,所以很多企業靠人工去開發AI應用,成本高、效率低、落地慢。
**在這樣的背景下,解決AI的通用泛化、規模化複製等問題是AI快速落地行業應用的一道關鍵門檻。**今年4月華為雲發佈盤古預訓練大模型,就是希望通過建立一套通用、易用的人工智能開發工作流,以賦能更多的行業和開發者。可以説,盤古將成為各行各業AI通用的“輪子”,助力各行各業加速智能化轉型。
在今年的華為全聯接2021上,盤古家族再添新成員,專門面向藥物研發領域推出的預訓練大模型——華為雲盤古藥物分子大模型,隨着該模型的落地,行業有望開啓AI輔助藥物研發的新模式,AI又將激活一個產業。

華為高級副總裁、華為雲CEO、消費者雲服務總裁張平安發佈華為雲盤古藥物分子大模型加速新藥研發,醫藥行業AI化再添一把火
**“新藥研發通常投入超10億美元、週期超10年,同時成功率往往不足1/10。”華為高級副總裁、華為雲CEO、消費者雲服務總裁張平安表示,藥物分子的設計和芯片的設計一樣非常難,投資大、週期長,失敗率高。**這些問題長期困擾製藥行業,製藥業的發展速度無法滿足當下人類的各種健康需求,特別是新冠這樣的突發疫情,以及癌症、海默症等一直沒有特效藥的頑症等,都對新藥研發非常迫切。
傳統的製藥模式中,藥物結構設計高度依賴專家經驗、新藥篩選失敗率高、藥企的投資回報率不斷下降等情況使得行業迫切需要變革。而技術的進步恰好賦予製藥業新的機遇:通過大數據、人工智能等科學技術加速新藥研發進程、平衡研發投入與成果產出之間的關係,成為行業新的突破口。
華為雲盤古藥物分子大模型是由華為雲與中國科學院上海藥物研究所聯合訓練的、依託華為雲一站式醫療研發平台EIHealth的面向藥物研發領域的AI大模型。“該大模型學習了17億個藥物小分子的化學結構。在藥物生成方面,實現了對小分子化合物的獨特信息的深度表徵、對靶點蛋白質的計算與匹配,以及對新分子生化屬性的預測,從而高效生成藥物新分子;在藥物優化方面,實現了對篩選後的先導藥進行定向優化。”華為雲EI服務產品部總經理賈永利表示,華為雲盤古藥物分子大模型的落地有望革命性地提升新藥的研發效率。
廣譜抗菌藥目前也有很大的市場需求,但是研發中困難重重,進度很慢。西安交通大學第一附屬醫院提出研發廣譜抗菌藥的新思路,通過華為雲盤古藥物分子大模型,在數字世界裏針對這個靶點利用大模型計算去找出可能的一系列的藥,然後再按照要求去做實驗驗證。這個項目進展驗證了上述思路的可行性,先導藥研發週期從數年縮短到一個月。
賈永利表示,“醫療專家只需要有個idea,剩下的交給AI通過大規模的運算去匹配,這將給製藥行業帶來巨大的變化。” 據瞭解,華為雲盤古藥物分子大模型具備四大技術和應用創新能力:第一,提出了針對化合物表徵學習的全新深度學習網絡架構;第二,進行了超大規模化合物表徵模型的訓練;第三,生成了擁有1億個新化合物的數據庫;第四,在20餘項藥物發現任務上實現性能最優。

華為雲盤古藥物分子大模型在20餘項藥物發現任務上實現性能最優IDC的報告顯示,過去三年,新藥研發創新企業利用大數據和AI等新興技術開展了大量的新藥研發探索工作,取得了顯著的收益,生物計算技術顯現出巨大的發展前景。AI在藥物研發的應用已經進入指數增長區,有數據顯示,到2021年,全球Top44家藥企中,有41家藥企與AI公司有合作關係,佔比為93%。顯然,華為雲盤古藥物分子大模型的落地將為製藥行業AI化再添一把火。
超強泛化能力,盤古推動AI行業落地
經過幾年的高速發展,AI由虛入實,慢慢開始在越來越多的企業中落地,根據去年IDC的數據顯示:得益於安防、智慧城市等AI應用場景的帶動,AI在行業滲透,推動了政府、交通、公共事業、健康等行業的智能化提速。同時,AI也開始逐漸走進企業的核心生產系統,預計2025年AI對企業的滲透率可以達到86%。
但是,AI應用還面臨着諸多挑戰,如何降低AI的算法、模型開發門檻,讓AI可以普惠,成為行業亟待解決的問題。今年4月華為雲發佈的盤古系列超大預訓練模型包括中文語言(NLP)、視覺(CV)大模型,多模態大模型、科學計算大模型。這其中,盤古NLP大模型是業界首個千億級生成與理解中文NLP大模型;華為雲在視覺領域打造的包含超過30億參數的CV大模型,也在不斷突破行業的極限。
華為雲盤古系列大模型的價值不僅是技術能力上的突破,更重要的是具備極強的泛化能力。通過與行業知識結合其能快速實現不同場景的適配,基於只需要“預訓練+下游微調”就可以快速應用。隨着盤古大模型的開放,各行各業的開發者不必再從零開始,只需在雲上找到自己所需模型。這就如同造車企業沒有必要自己造輪子,只需求從輪胎廠選擇適合自己的輪子。可以説,盤古大模型就如同是各行各業的AI“輪子”工廠,只要選到最適合自己的,就可以快速奔跑起來。
**“讓AI從作坊式變成工廠式生產,減少對數據的依賴、對AI開發者的依賴,這就是盤古要解決的問題。”賈永利説。**比如盤古CV大模型目前已經在醫學影像、金融、工業質檢等100餘項實際任務中得到了驗證,平均縮短開發時間 80% 以上,極大地提升了開發效率以及模型性能。再比如,盤古NLP大模型具備廣泛的運用場景,在金融領域,可以輔助識別企業風險,助力企業盡調和項目審核。
以醫藥行業為例,AI在製藥領域的難點最重要的有兩個,一個是數據,AI模型的訓練往往需要大量的數據,而數據往往又是製藥公司的核心資產,被視為商業機密,在不同機構之間基本不會共享。第二個是適用於藥物數據的全新的深度學習架構,藥物數據不同於圖片和文本數據,如何用深度學習的方法對藥物數據進行建模是當前學術界的熱點難題。
作為盤古家庭新成員,華為雲盤古藥物分子大模型作為醫療智能體藥物研發引擎的核心,可以賦能傳統的製藥公司低成本,低門檻的構建起自己的企業級AI研發能力,可以幫助企業搶到AI藥物研發這一波技術紅利。
盤古大模型將一套通用的流水線複用到各種不同的場景裏去,減少專家的干預和人為調優的消耗,從而降低人工智能開發的門檻和成本,讓行業開始了工業化AI開發模式。
圍繞場景深耕,放大AI價值
IDC 預測,全球 AI 市場支出將在 2021 年達到 850 億美元,並在 2025 年增至 2000 億美元,五年複合增長率(CAGR)約為 24.5%。2025 年,全球約 8% 的 AI 相關支出將來自於中國市場,市場規模在全球九個區域中位列第三。
隨着AI投入的不斷增加,特別是華為雲盤古大規模推動AI進入工業化時代,縮短了傳統行業走向智能化的距離,各行各業的智能化將迎來爆發式增長,智慧城市、智慧能源、智慧金融、智慧製造……越來越多的應用場景都將加上“智慧”二字。
華為一直圍繞行業、圍繞場景去深耕,找到真正的結合點。同時華為造“輪子”的目的不止於“輪子”,而是真正能飛奔起來的汽車。
比如在電力行業,傳統的無人機智能巡檢AI模型開發主要面臨兩大挑戰:一是如何對海量數據進行高效標註;二是缺陷種類多達上百種,需要數十個AI識別模型,開發成本高。國網重慶永川供電公司應用無人機電力智能巡檢技術,華為雲合作應用了盤古 CV 大模型,樣本篩選效率提升約 30 倍,篩選質量提升約 5 倍,以永川每天採集 5 萬張高清圖片為例,可節省人工標註時間 170 人天。這其中更為重要的是模型通用性,結合盤古搭載的自動數據增廣以及類別自適應損失函數優化策略,可以做到一個模型適配上百種缺陷,一個模型就可以替代永川原來的 20 多個小模型,極大地減少了模型維護成本,平均精度提升 18.4%,模型開發成本降低 90%。
在金融行業,傳統動產質押業務中有很多痛點,比如:因貨源不清晰,導致“一物多抵”;因監管公司道德風險,導致“黃金變銅”;因缺乏數字化手段,導致過程監管成本高,流於形式;因缺乏處置平台,導致貨物變現難。在浦發銀行與華為聯合打造的浦慧雲倉項目中,需要實現貨物進倉與融資放款匹配、還款與貨品出庫聯動。浦發銀行應用華為雲盤古大模型,對叉車入庫時的貨堆進行精確計數,確保了貨物入庫的真實性;藉助華為雲盤古大模型的小樣本學習能力,大大節省了識別倉庫中上百種外觀不同箱體的樣本採集和標註工作量,明顯縮短了項目上線週期。
通用AI加速行業智能化,反過來行業實踐也會促進通用AI技術能力的提升。今天處於AI發展的初期階段,造出AI的輪子,還要讓輪子多跑、多轉,然後再不斷進行優化。在各行各業的充分歷練,也將使得盤古獲得更大的成長空間。