全球首創!智算網絡正式上線

【文/觀察者網 呂棟】
今年4月,《中共中央 國務院關於加快建設全國統一大市場的意見》正式發佈,其中指出,要通過建設全國統一大市場,讓資源、要素流動更暢通,全面推動中國市場由大到強。
隨着中國加快邁入數字經濟時代,算力正成為新的生產要素,人工智能計算中心、超算中心以及全國一體化算力網絡樞紐節點等,正作為國家新型算力基礎設施加快建設。
在各種算力設施如雨後春筍般湧現的背景下,要想優化算力資源配置,突破單點算力極限,提高數據流通效率,建設全國統一的算力網絡和算力大市場勢在必行。
5月底,鵬城實驗室的“中國算力網(China Computing NET,C²NET)”計劃首次公開。該計劃提出要構建自主可控的算力網絡技術體系,要“像建設電網一樣建設國家算力網,像運營互聯網一樣運營算力網,讓用户像用電一樣使用算力服務”。

華為計算產品線總裁鄧泰華
鵬城實驗室主任、中國工程院院士高文指出,建設中國算力網,要通過突破異構兼容、算網融合、雲際協同等關鍵核心技術,實現全國大型算力的協同調度和高效計算,推動國家“東數西算”戰略重要節點互聯互通,更好地滿足中國經濟社會高質量發展的新需求。
如今,這一全球首創、致力於打造中國數字經濟算力底座的重大計劃,邁出標誌性一步。
中國算力網開始落地
“今天,我們迎來一個重要的歷史時刻。”
在6月15日舉辦的華為夥伴暨開發者大會上,鵬城實驗室主任、中國工程院院士高文,科技部高新技術司副司長梅建平,華為計算產品線總裁鄧泰華,共同見證了中國算力網—智算網絡一期的上線。
中國算力網—智算網絡一期的成功搭建,標誌着中國算力網建設開始正式落地,而智算網絡的構建基礎則是各地建成的人工智能計算中心。
當前,人工智能已成為數字經濟高質量發展的引擎,人工智能計算中心作為人工智能算力基礎設施受到全球廣泛重視,美國、歐洲、日本等國家和地區都在積極推動人工智能計算中心的建設,中國作為人工智能大國自然也不例外。
過去一年多,基於昇騰AI集羣,鵬城雲腦II和武漢人工智能計算中心陸續上線,拉開了中國各地建設人工智能計算中心(AICC,Artificial Intelligence Computing Center)的序幕。目前,全國已經有二十多個算力領先城市,基於昇騰AI軟硬件平台和華為集羣計算解決方案,建設了人工智能計算中心。

在各地人工智能計算中心陸續建成後,搭建中國算力網-智算網絡的條件也隨之成熟。
作為中國人工智能行業的重要參與者,昇騰AI其實很早就已洞察到算力網絡的發展趨勢。
鄧泰華告訴觀察者網,中國已建成電力網、高鐵網、通信網,未來肯定也會建成算力網。這個算力網就是把當前各地獨立建設的算力資源,尤其是大型算力資源,通過連成一張網,實現最大化數據流通共享,再基於各個地方共享的算力資源,提供更高效的算力開發方案。
2021年12月,在科技部指導下,鵬城實驗室、華為、百度、訊飛等近20家單位,聯合發起人工智能算力網絡推進聯盟,推進各地上線的AICC連接成網、上線運行。
如今,隨着中國算力網-智算網絡一期正式上線,各地的人工智能計算中心也順利連接成網,可動態實時感知算力資源狀態,實現統籌分配和調度計算任務,構成區域內可感知、可分配、可調度的AI算力資源,以“一網絡”實現“三匯聚”:

算力匯聚:不同人工智能計算中心之間高速網絡互聯,實現算力合理調度和資源彈性分配,提升各人工智能計算中心的利用率,還可實現整體能耗節省。
數據匯聚:多方合作,推進AI領域的公共數據開放,基於人工智能計算中心匯聚高質量的開源開放的AI數據集,促進AI算法開發和行業落地。
生態匯聚:採用互聯、應用接口等標準,強化跨區域科研和產業協作,為所有用户進行AI應用創新提供更多的資源選擇和更便捷的合作方式,加速產業聚合,激活產業共融共生。
智算網絡為大模型發展帶來新機遇
當前在AI領域,人工智能大模型具備更強泛化能力適配多個場景,發展大模型已成為產學研各界共識。而智算網絡匯聚了大量算力和數據,為大模型的訓練創造了天然有利的條件。
這裏以一個盤古多語言大模型的真實任務,演示用户如何提交任務、協同多個算力中心資源進行訓練。
鄧泰華告訴觀察者網,目前部分用户確實還在基於自建算力訓練大模型。但未來隨着大模型越來越複雜,數據量越來越大,如果企業和科研機構都靠自有算力去訓練,可能無法提供足夠的算力,訓練時長也會大幅增加。另外,即便用户自建了足夠大的算力,但計算業務天然存在波動,仍會出現能耗閒置,並不是一種最經濟的選擇,也不符合國家“雙碳”的目標。
因此,包括人工智能計算中心、超算中心等大型算力基礎設施,天然適合集約化建設。
通過算力網絡協同調度,在A中心算力波峯時,可以將排隊任務轉移到算力波谷的B中心計算,削峯填谷,多計算中心都可以保持算力高利用率,將計算中心的能耗充分利用起來,從全局和長遠角度看,是進一步提升電能利用率、降低碳排放的有效路徑。
後續,不僅是智算中心聯網,各地超算中心、一體化大數據中心算力樞紐,都可以併入中國算力網,實現數據、算力、算法、模型、服務等多要素共享與流通,用户也可以按需申請、按需使用,在全國範圍內調集算力來訓練大模型。
對於大模型訓練來説,算力十分重要,AI計算框架的支撐同樣必不可少。
在極致性能上,昇騰AI框架MindSpore支持全自動並行,可以把大模型拆分到不同的算子,訓練過程中大圖可以拆分成小圖,小圖可以拆分成不同的計算單位,全部實現自動化,不需要人工干預,可以最大化的利用算力資源,提升整個模型的訓練效率。
為了更好的使能大模型發展,昇騰AI還構建了從規劃、開發到產業化的大模型全流程使能體系:包括建立大模型沙盤,規劃並牽引產業界真正需要的大模型;推出大模型開發使能平台,讓開發者能夠快速完成大模型開發;在大模型訓練出來後,攜手業界夥伴共建大模型產業聯盟,讓更多夥伴基於大模型進行場景化方案聯創實現產業化推廣。

過去一年,中國產業界基於昇騰智算中心先後發佈一系列有影響力的大模型,包括華為雲.盤古系列大模型;在NLP領域,鵬城實驗室發佈了鵬程.盤古;百度發佈鵬城-百度.文心;智源研究院發佈悟道;多模態領域,中科院自動化所發佈全球首個三模態大模型紫東.太初;在生物製藥領域的鵬程.神農等等。
對於大模型來説,最為關鍵的還是產業化落地。
2021年底,基於全球首個智能遙感框架武漢.LuoJia和全球首個三模態大模型紫東.太初,華為攜手夥伴成立了智能遙感開源生態聯盟和多模態人工智能產業聯盟,如今半年多時間過去,兩大聯盟已經開花結果,陸續孵化出多個行業解決方案。
例如,千博信息基於紫東.太初開發了手語多模態模型,開創性地實現手語動作與示意圖片和文字的聯動,讓初學聽障人士更加方便的理解,幫助他們解決溝通、就業等一系列難題。
這也充分體現出AI成果轉化中的社會價值。
更重要的是,在大模型產業化落地過程中,可以以更豐富的數據和參數、更泛化的應用場景,來反哺大模型基礎能力,讓大模型更智能、場景適用性更好,從而又可以對行業應用提供更大的支持,這樣就能形成大模型創新、到應用、到迭代創新的產業正循環。
中國算力網建設仍有問題待解
隨着中國算力網—智算網絡一期正式上線,人工智能計算中心將不再“孤軍奮戰”,算力、大模型、數據集、行業應用等人工智能要素將充分流動共享,成為應對新需求的重要途徑。

但對整個中國算力網的建設來説,似乎仍任重道遠。
鄧泰華告訴觀察者網,建設中國算力網是一個持續迭代的過程,並不是靜止的目標,未來需要經過持續優化、不斷擴大範圍的過程,所以目前的智算網絡只是中國算力網一期,並且也只是以“鵬城雲腦”作為核心節點,實現數個智算中心聯網,以及最基本的任務編排調度。
未來發展方向,無疑是要讓更多算力接入中國算力網。但要實現這個目標,似乎還有許多問題需要解決。
例如,算力網技術架構應該怎麼規劃,技術方案怎麼實現?怎麼保證算力相互連在一起,任務、資源可以共同調度,中間的時延怎麼解決?不同的調度基於不同的需求,怎樣做到全域的編排管理?統一調度對於單點數據中心怎麼來對接?數據中心之間的傳輸怎麼來配合?
鄧泰華認為,如果把整個中國算力網作為一個大的體系來看,這個體系的技術架構如何規劃創新,現在尚未成型,因為中國算力網是全球首創,所以並沒有成型的先例可以參考。
今年2月,國家發展改革委、中央網信辦、工業和信息化部、國家能源局四部門聯合發佈《全國一體化大數據中心協同創新體系算力樞紐實施方案》,明確提出佈局全國算力網絡國家樞紐節點,啓動實施“東數西算”工程,構建國家算力網絡體系。
鄧泰華指出,東數西算、東數西存乃至東數西訓都有不同的應用場景,是一個大的體系規劃。目前,東數西算、東數西存以及東數西訓一體化大數據中心樞紐還處在規劃階段,部分地方剛開始啓動建設還沒有上線,而基於昇騰AI的智算中心已批次建成,目前實現9個城市的計算中心聯網並上線。未來,隨着一體化大數據中心上線,具備條件後也將併入中國算力網。