院士鄭緯民:內存型長記憶存儲以存換算,是AI推理新趨勢
【環球網科技報道 記者 張陽】10月29日,在中國電子工業標準化技術協會主辦的數據存儲專業委員會(以下簡稱“數據存儲專業委員會”)成立大會上,匯聚了100多位產業單位代表、數據存儲專業委員會成員、院士專家。與會人員共同探討數據存儲產業發展,見證數據存儲專業委員會正式成立。中國工程院院士、數據存儲專委會名譽會長鄭緯民發表“AI存儲是人工智能大模型的關鍵基座”主題演講。

鄭緯民院士介紹到人工智能進入大模型時代有兩個特點:第一,基礎大模型進入多模態時代,從單純文本到圖片視頻等多模態語料信息的綜合應用。第二,大模型已真正在金融、醫療、智能製造等多個領域應用。
圍繞大模型四個環節,鄭緯民院士介紹了大模型訓練和推理應用中對存儲的挑戰和相關技術:
第一個環節,數據獲取:大模型訓練需要海量的原始語料數據,這些數據獲取以後需要存儲設備存起來,同時大模型從單模態到多模態,出現數百億的小文件,文件系統的目錄要求可擴展、讀寫快,需要存儲具備低延遲和高可擴展能力。
第二個環節,數據預處理*:*獲取的數據質量太差,好多數據是重複的、低質量的,因此需要進行預處理,將低質量數據變成高質量。有人統計過ChatGPT4這樣級別的大模型需要用1萬塊A100卡訓練了11個月,而其中數據預處理可能會佔一半以上的時間,真正有效的訓練時間只有一半,這跟數據存儲的性能有很大關係。

*第三個環節,模型訓練:*模型訓練中有很多問題,比如10萬塊卡組成的系統可靠性是很難保證的,平均一個小時要出一次錯,集羣可用度非常低。為了快速完成斷點續訓,需要把CheckPoint點的數據讀取出來重新訓練,這個時候就很依賴存儲系統的性能。高性能的AI存儲系統,能夠極大縮短斷點續訓時間,實現AI集羣的算力可用度大幅提升。
華為跟清華大學MADSys實驗室聯合開發了高性能AI存儲系統,首次獲得國際權威機構MLPerf Storage基準評測第一名,性能密度是第二名的兩倍。
*第四個環節,模型推理:*模型推理是最直接跟AI應用相關的環節,更多的數據、更大的模型以及更長的上下文窗口能夠帶來更高效的人工智能。但是有個問題,更高的智能要求的推理負載極重,模型參數以及推理過程中產生的KV-Cache都需要很大的存儲空間,特別是200萬字節的長序列對卡的要求很高。這方面國內優秀的大模型應用Kimi就和清華大學MADSys實驗室共同推出了 Mooncake 分離式推理架構,通過把需要共享的KV-Cache保存下來,採用以存換算的思路大幅度提升系統吞吐。
鄭緯民院士表示,模型的推理過程是一個複雜的存儲系統工程,關鍵是能夠存的多、傳的快、性價比高。清華大學 MADSys 實驗室聯合華為數據存儲、9#AISoft、阿里雲、面壁、趨境等幾家公司共同開發高性能內存型長記憶存儲系統,即將開源發佈。能夠大範圍全局共享與持久化KV-Cache,實現以存換算。共建大模型時代下的高性能內存型長記憶存儲系統生態,充分發揮存儲在大模型下的作用。

最後,鄭緯民院士總結道,AI存儲是人工智能大模型的關鍵基座,存儲系統存在於大模型生命週期的每一環,是大模型的關鍵基座,通過以存強算、以存換算,先進的AI存儲能夠提升訓練集羣可用度,降低推理成本,提升用户體驗。