國產AI框架,如何“彎道超車”?

【文/觀察者網 呂棟】
“作為後發框架,要想實現技術超越或者領先,核心就是找到AI技術變革的下一條新賽道,只有當新賽道出現的時候,才有彎道超車的機會。”近期在人工智能框架生態峯會2023上,昇思MindSpore開源社區理事長丁誠在接受觀察者網採訪時説道。
今年以來,ChatGPT掀起的這輪AI大模型浪潮,徹底拉高了市場對AI底層硬件的預期,算力、GPU、服務器等概念縈繞在不少人的腦海中。但實際上,在每個劃時代的技術更迭中,硬件都需要與軟件系統密切配合,才能更好地實現產品或應用價值。
在當前的人工智能技術架構中,共分為大約四層:芯片層、框架層、模型層和應用層。其中,AI框架在行業內被定義為“AI領域的操作系統”。在這一底層核心軟件領域取得主導權,無異於微軟在PC時代擁有Windows,谷歌在移動互聯時代打造安卓。
在AI成為大國競爭新高地的今天,國產AI框架的發展,事關中國能否在新一輪科技革命中掌握主動權。令人感到欣慰的是,近些年以昇思MindSpore、飛槳PaddlePaddle等為代表的國產AI框架逐步成長起來,沒有讓中國科技產業“缺芯少魂”的劇情重演。
但同時也要指出的是,由於具有先發優勢,谷歌的TensorFlow和Meta的PyTorch,在性能和易用性上依然不乏好評,目前使用率在國內高居前列。面對TensorFlow和Pytorch構築的舊格局,國產AI框架“彎道超車”的機會在哪?又該如何打造自己的生態優勢?

圖片數據來源:Omdia(下同)
AI框架有何重要作用?
“大模型時代,大家對AI產業發展的關注,往往會聚焦在算法本身以及底層的算力上,也就是基礎設施硬件方面,中間的技術軟件經常被忽視。”近日在上海舉行的人工智能框架生態峯會2023上,昇思MindSpore開源社區理事長丁誠向觀察者網説道。
自去年底以來,新一輪AI大模型熱潮被ChatGPT掀起,算力和服務器成為絕對的市場焦點,國內大模型廠商搶購GPU的消息此起彼伏。例如最近就有傳言稱,字節跳動今年向英偉達訂購了超過10億美元的GPU,國內另一家大廠的訂單也超過10億元人民幣。
AI訓練和推理需要大算力,GPU等AI芯片受到熱捧無可厚非。但同時也要指出的是,所有人工智能的算法及應用,都要通過AI框架進行訓練與部署。作為人工智能的“根技術”,“AI框架+算力硬件”的組合,可以在一定程度上決定AI產業應用的主體技術路線。

AI框架技術演進 圖源:中國信通院
“人工智能框架南向對接多樣算力,北向通過編程接口幫助開發者實現算法創新應用。在整個大模型生態當中,人工智能框架是起到一個大模型使能的定位,所謂大模型使能,就是幫助開發者孵化他的大模型,人工智能框架不會自己去做大模型,但是它會把做大模型的算法團隊作為它的用户。”丁誠告訴觀察者網。
對於AI框架的重要意義,商湯科技聯合創始人林達華曾這樣表述:
在我們最初探索深度學習的時候,沒有TensorFlow,沒有PyTorch,甚至沒有GPU。我們需要手寫C++程序來完成整個計算過程,訓練一個模型需要一兩個月。正是因為經歷了這樣的艱辛,我們深切地認識到訓練框架的核心意義,可以説,訓練框架定義了算法研發的空間,框架的空間有多大,我們就能走多遠;框架的能力有多強,我們就能走多快。
百度首席技術官王海峯也曾表示:
深度學習的通用性特點,以及深度學習框架及平台的發展,正推動人工智能標準化、自動化和模塊化,進入工業大生產階段。深度學習框架下接芯片,上承業務模型、行業應用。一個好的AI框架,與芯片互相配合,可以最大限度的“榨乾”芯片的算力,發揮其最高效用。
總體而言,對於開發者來説,AI框架的底層能力、功能豐富度、生態完善度,都會影響開發效率,進而影響新技術和應用創新的速度。隨着大模型浪潮席捲而來,AI領域內的開發創新工作更加如火如荼,AI框架作為核心開發工具,重要性更加凸顯。

國內沒有缺席,但國外仍有優勢
PC和移動互聯網時代,Windows+Intel、Android/iOS+ARM的軟硬件聯盟,曾讓中國飽受“缺芯少魂”之苦。進入AI時代,中國企業更早認識到“操作系統”的重要性,紛紛開始佈局AI框架。例如,華為MindSpore、百度PaddlePaddle、商湯科技SenseParrots、騰訊TNN、阿里MNN、字節跳動BytePS、曠視MegEngine、小米Mace等。
丁誠在前述峯會2023上告訴觀察者網,昇思MindSpore開源三週年以來,一直在幫助包括像中科院自動化所,鵬城實驗室,各個高校,以及產業用户孵化各種各樣的大模型。目前,國內大概已經有20個大模型通過昇思AI框架原生孵化出來,至少有9個大模型通過MindSpore開源社區平台和搭建的渠道推向產業。
2019年8月,華為推出昇思MindSpore,並在2020年3月將框架開源。觀察者網獲悉,截至2023年5月底,昇思開源社區下載量已突破474萬,社區貢獻者1.3萬,服務企業數量5500家,與240家科研院所展開合作,開源模型達400多個,發表頂會論文超過900篇。
百度佈局AI框架的時間其實更早,2016年該公司發佈並開源飛槳PaddlePaddle。百度方面披露的數據顯示,截至2022年5月,飛槳匯聚477萬開發者,創造56萬個AI模型,服務18萬企事業單位。截至2021年底,已有超過20個廠家、30種以上的芯片適配飛槳。
根據2023年1月Omdia發佈的《中國人工智能框架市場調研報告》,在中國開發者的心目中,MindSpore在國產框架中認知度排第一,PaddlePaddle緊隨其後。在開發者認知度排名方面,昇思和飛槳已超過國外非常成熟的框架MXNet,以及谷歌重點支持的新興框架JAX。
但易用性和性能方面,國產框架似乎與國外仍有差距。根據前述報告,在國外的端到端框架中,開發者認為TensorFlow和PyTorch的易用性更好,而本土框架昇思MindSpore和飛槳PaddlePaddle緊隨其後;性能方面,開發者認為TensorFlow和PyTorch性能更好,昇思MindSpore和飛槳PaddlePaddle同樣緊隨其後,二者在性能評價上已經超過其他主流框架。

AI框架隔離了底層的複雜性,更加易用的框架能夠讓開發人員以更快的速度和更高的效率,來探索、創建、改進和迭代AI項目。而AI框架的性能則涉及到框架本身的底層性能,包括框架的底層算法效率,以及框架利用底層硬件資源進行優化開發、訓練和推理的能力。
由於易用性和性能是開發者最看重的因素,因此目前TensorFlow和PyTorch在開發者中的使用率較高。根據Omdia報告,在中國開發者AI框架使用率排名中,PyTorch和TensorFlow,分別以34%和30%遙遙領先,PaddlePaddle和MindSpore並駕齊驅,使用率均為11%。
中國信通院發佈的《AI框架發展白皮書(2022年)》提到,全球來看,國際主流AI框架由Google、Meta等科技巨頭主導。目前以Google、Meta、Amazon、Microsoft等代表的互聯網科技巨頭,憑藉自身的數據、技術和資本等優勢,持續在AI框架生態領域發力,引領全球AI框架技術創新升級趨勢,並逐步形成了以Google-TensorFlow和Meta-PyTorch為代表的雙寡頭格局。從市場佔有情況看,產業界以TensorFlow為主,學術界以PyTorch為主。
“彎道超車”的新賽道在哪?
在整個人工智能體系中,AI框架被視為核心一般的存在。中國佈局AI框架的企業雖然眾多,但在性能和易用性等方面,似乎與Google、Meta等國外巨頭仍有差距。在大模型時代到來之際,國產AI框架又該如何構建自身優勢,甚至實現“彎道超車”呢?
“TensorFlow是2015年12月開源的,Pytorch是2016年4月,比MindSpore早了大概4-5年的時間。作為後發框架,要想實現技術超越或者領先,核心就是找到AI技術變革的下一條新賽道,只有新賽道出現的時候才有彎道超車的機會。”丁誠向觀察者網表示。

“在下一個時代,新賽道是什麼呢?”
丁誠提到了“AI For Science”(科學智能)。他表示,下一個可能發現的技術變化點是科學智能,傳統的科學智能、科學計算在每一個科學問題中,可能都孕育着一個基本的數學方程。
舉例來説,在流體力學計算中會消耗大量的算力,這個過程其實數學原理很簡單,就是一個納維-斯托克斯方程的求解。在傳統過程中,如果用CPU單卡進行計算,可能需要幾十年、上百年都算不完,而用AI的方式就有可能10倍或者100倍地加速納維-斯托克斯的求解。
“所以在MindSpore發佈的2.0版本中,提出了科學計算融合架構,目的就是想在這個賽道中能獲得更多技術領先的機會,打造自己的原生生態。”丁誠向觀察者網透露,MindSpore會首先在大模型和AI For Science兩個新賽道里構建自己的原生生態。
根據Omdia發佈的報告,“AI for Science”藉助人工智能的巨大技術優勢,可將數學計算和科學模型的方法結合,高效處理海量數據,使傳統的科研過程變得自動化、規模化、並行化和平台化,從而解決原來傳統科學研究範式無法解決的問題,幫助科學家突破科研瓶頸。
Omdia分析師認為,“AI for Science”在氣候和環境科學(天氣預測等),生物製藥和生命科學(新藥研發、蛋白質結構預測等),流體力學(汽車或飛機的氣動設計等),電磁學(電磁仿真等)等應用領域可能會首先取得突破。
在這份報告中,大多數開發者反饋,TensorFlow 對“AI for Science”支持比較好,而昇思 MindSpore對“AI for Science”的支持能力超過PyTorch,並有趕超TensorFlow的趨勢。

“對於Pytorch和TensorFlow領先的生態怎麼辦?我們會做兩件事情。”
丁誠透露,首先,框架的生態錨點會從API走向模型,MindSpore開源社區將承載更多業界高質量算法模型,把這些模型打造成一個算法套件,幫助傳統賽道的AI用户能快速得到行業場景應用。第二件事情,MindSpore在保持自己自主創新的一套原生API基礎之下,兼容業界現有像Pytorch這樣的API的生態。對傳統用户來講,如果想重新學習MindSpore,學習成本將會很低,通過這樣的方式,把傳統的生態逐漸吸引到MindSpore生態圈裏。
構建生態仍是重中之重
在PC和移動互聯時代,軟硬件生態是產業鏈企業無法忽視的關鍵詞,Windows+Intel、Android+ARM構建的生態壁壘,直到現在還是“制勝法寶”。在人工智能時代,AI框架的生態構建同樣是重中之重,因為這將直接影響框架的能力、功能、以及產業化應用等。
最近幾年,國內的AI框架生態建設已經為產業發展帶來了切實好處。例如,多家科研院所和高校基於MindSpore推出紫東.太初、鵬程.神農、武漢.LuoJia等大模型,PaddlePaddle聯合鵬城實驗室發佈了鵬城-百度·文心等大模型,兩大開源框架平台也匯聚了大量開發者。
但這仍然不夠。中國信通院報告指出,AI框架進入主流視野僅五六年時間,從技術演進,到開源生態、市場格局,再到應用賦能、推廣輻射,AI 框架的整體生態還遠未成熟。軟硬件協同、開源打造、開發者推廣、關鍵領域賦能等方面,將為生態成熟升級提供重要助力。

為了共建人工智能框架生態,在人工智能框架生態峯會2023上,18家AI頭部企業、高校、科研機構、開源社區等共同發佈首個AI框架生態倡議,倡議通過政產學研用的共同努力,支撐中國人工智能框架生態走向新高度,推進中國人工智能產業新發展。
同時在峯會上,昇思社區理事會宣佈成立,首批成員單位包括AI芯片企業、AI應用企業、高校與學術機構共計18家單位,目標是面向產業、商業、生態等各方向吸納對社區有貢獻、有潛力的企業,通過理事會加強核心夥伴粘性,助力夥伴商業生態成功。
上海人工智能研究院、上海市閔行區政府、臨港集團、昇思開源社區還聯合啓動了上海昇思AI框架&大模型創新中心,支持全國範圍的AI技術企業、高校與科研院所孵化大模型、科學智能技術研究,打造一系列富有競爭力的“AI+行業”的示範性應用場景,推動產業集聚。
從當下的發展趨勢來看,大模型已經成為AI產業界的共識。在ChatGPT引爆新一輪浪潮後,未來一段時間內大模型很可能將保持高速發展,誰進展得更快、誰就更有優勢。而這種競速並不只是單純地拼人才、拼資源,更大程度上還是拼基礎設施和生態。
AI框架始終被視為AI的根技術,是模型的“土壤”。如何讓這個“土壤”更肥沃?開源、開放、共建就成為關鍵。
中國信通院報告指出,開源本質上是一種人才、智慧的聚合,能夠助推AI框架快速升級。茁壯的開源生態對於AI框架的發展至關重要。開發者通過在開源社區進行代碼開源、項目託管、協作分享、溝通交流等一系列活動,實現與開源AI框架的緊密互動。
這或許也是為什麼要召開人工智能框架生態峯會2023的原因,核心目的就是為了吸引、呼籲更多人,一同共建中國AI框架生態。而在新一輪技術週期的影響和帶動下,國產AI框架會如何發展,能否實現對TensorFlow和PyTorch的“彎道超車”,也十分引人關注。
本文系觀察者網獨家稿件,未經授權,不得轉載。