陳根:谷歌開發可訓練數十億參數的超級模型,拯救經費貧窮_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-03-01 10:52
文/陳根
去年,OpenAI的GPT-3在外網走紅。GPT-3作為著名人工智能科研公司 OpenAI 開發的文字生成人工智能,以天文數字級別的1,750億參數量引發轟動。
GPT-3是迄今為止最強大的語言模型,龐大的參數量也讓GPT-3幾乎無所不能,包括答題、翻譯、寫文章,甚至是數學計算和編寫代碼。由GPT-3所寫的文章幾乎達到了以假亂真的地步,在 OpenAI 的測試中,人類評估人員也很難判斷出這篇新聞的真假,檢測準確率僅為12%。
然而,GPT-3類似人類的輸出和驚人的通用性只是優秀技術的結果,而不是真正的聰明。GPT-3的智能是天文數字級別的參數量和運算的疊加。可以説,大規模模型的訓練只是少數需要複雜模型重構和昂貴GPU集羣的人的遊樂場。對於很多缺少足夠經費的普通研究人員來説,訓練這些大規模模型只能“紙上談兵”。
近日,來自微軟、加州大學默塞德分校的研究者提出的名為“ZeRO-Offload ”的異構深度學習訓練技術,或將拯救這一“缺少足夠經費”的窘況——ZeRO-Offload可以在單個 GPU 上訓練擁有 130 億參數的深度學習模型,讓普通研究者也能着手大模型的訓練。
簡單來説,ZeRO-Offload 是一種通過將數據和計算從 GPU 卸載到 CPU,以此減少神經網絡訓練期間 GPU 內存佔用的方法,其使用方法也相對簡單,只需要在DeepSpeed中設置完畢後,使用 ZeRO-Offload ,然後修改一些標誌和配置文件就可以。
與 Pytorch 等流行框架相比,ZeRO-Offload 將可訓練的模型規模提升了 10 倍,而且不需要數據科學家對模型做出任何改變,也不會犧牲計算效率。
此外,它還可以與模型並行性一起工作,在一個DGX-2盒子上訓練超過700億參數的模型,與單獨使用模型並行相比,這一參數量實現了 4.5 倍的規模提升。可以説ZeRO-Offload使大規模模型訓練更加大眾化。