”買越多省越多”!NVIDIA高速模型訓練將助自然語言突破瓶頸_風聞
TechEdge科技边界-2019-08-15 23:04
圖像識別與自然語言處理是目前最普遍的兩大AI技術,然而圖像識別成熟度已經極高,在某些領域可達到接近百分之百的識別率,但自然語言的技術成熟度卻遠遠落後於圖像識別技術。
這主要還是因為自然語言不能單純依靠類神經網絡的方式來處理,對類神經網絡而言,要從一個連續不斷的句子中理解前後文的關連,並抽取出正確的命令,其複雜性極高。由於自然語言普遍存在的不確定性,即消除歧義,涵蓋詞法、句法、語用分析中存在的歧義問題。在每一個層次中或是在下一層次向上一層次轉變中都存在着歧義和多義現象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,並有不同的意義。
也因為處理上的極限,包括Amazon、Google、Facebook以及蘋果,都在基於自然語言的語音助理處理上跌過跤。
而這些大廠的共通點,就是自然語言的處理並不是都完全交給AI,而是必須由人工進行側錄、聽寫,不論是取代機器的判斷,或者是修正機器的處理,雖然落實了人工智能中的人工部份,但這麼一來卻與其宣傳內容截然不同,另一方面,也造成侵犯隱私的爭議。
換言之,你對機器講的命令、訂單,或者是約見某人,可能都已經被雲端那邊的工作人員徹底掌握,而這也造成消費者的恐慌,在各國相關隱私調查機構的介入之後,也陸續改進其側錄行為。
而前不久科大訊飛在同步翻譯使用了人工,同樣產生造假的爭議,看起來也是無可奈何的作法。但重點是,即便目前自然語言缺不了人工介入,廠商有向消費者揭露後端處理方式的義務,而不是使用虛假宣傳。
但如果還需要人工介入機器的自然語言處理,那就算不上人工智能了。
根據Juniper Research預測,未來四年內,僅數字語音助理將從25億增長到80億。 根據Gartner的説法,所有客户服務互動的15%將在2021年由AI完全處理,比2017年增加了四倍。這代表基於自然語言技術的相關服務產值成長空間極大,而如果解決不了目前的瓶頸,那麼就很難達成這樣的營收成長目標。
NVIDIA應用深度學習研究小組副總裁Bryan Catanzaro表示,雖然該領域的進展在研究和商業領域都在迅速發展,但教授計算機與人類進行真正高質量的對話仍然是人工智能更加雄心勃勃的目標之一。
根據Catanzaro的説法,主要需要的是能夠理解人類對話中固有的細微差別的大型模型。理解上下文的能力也需要具有更多參數的更復雜的模型。並且能夠快速訓練這些模型,以便研究人員能夠在合理的時間範圍內對其進行改進。
在推理方面,所需要的是實時響應,通常為10毫秒或更短。如果計算模型的答案花費的時間太長,人們會覺得響應非常緩慢,那麼交互就會顯得不自然,實用性也會大減。
今天流行的NLP模型是BERT,它代表Transformer的雙向編碼器。對變換器的引用是指一種可以將輸入序列轉換為輸出序列的神經網絡。然而在BERT的情況下,模型在兩個方向上進行訓練,也就是模型可以從文字左側和右側的內容同時評估文本。不少AI社羣中的開發者認為BERT是NLP的轉折點,相當於ResNet在2015年為圖像識別所做的事情。
最近,NVIDIA宣佈了自然語言模型訓練方案,通過使用DGX-2 SuperPOD,可以在一個小時內訓練好BERT模型。
過去如果要完成同樣規模的模型訓練,在多GPU服務器上需要幾天時間。而即使在具備16顆GPU的DGX-2上也需要2.8天。但由於SuperPOD由92個DGX-2系統組成,因此NVIDIA能夠在1,472個GPU上幾乎線性地擴展訓練,並且在不到一個小時的時間內完成任務。
當然,92部DGX-2服務器肯定不便宜,但套句老黃最愛説的話:買越多省越多。畢竟時間就是金錢,省越多訓練時間,越快能把模型布建至服務當中,那麼等同於可以早點開始進行服務。
BERT是由谷歌的研究人員在2018年開發的,但從那時起,不同公司開發了許多變體,包括Facebook(RoBERTa),阿里巴巴(Perseus-BERT)和微軟(MT-DNN)。XLNet由卡內基梅隆大學和谷歌的研究人員開發,借用了BERT的一些技術,但也集成了Transformer-XL的其他技術。
部份模型在通用語言理解評估(GLUE)基準測試中表現已經優於人類,這是一組用於評估NLP系統的指標。以下是最新的十大模型GLUE排行榜,人類基線現在排在第四位。
BERT-Large模型包含大約3.4億個參數,在Megatron項目下並在其DGX-2 SuperPOD超級計算機上運行,NVIDIA構建了一個具有83億個參數的複雜網絡。NVIDIA對此表示,如果要完成之前Google、Amazon或Facebook所完成不了的自然語言任務,就必須生成這麼複雜的模型。
在推理方面,NVIDIA指出他們通過使用TensorRT優化代碼的T4 GPU,在BERT-Base模式下使用SQuAD數據集,可以在2.2毫秒內的響應時間進行傳遞,這完全在10毫秒的會話閾值內。在他們的對比測試中,如果使用CPU平台,則會花費40ms來完成相同的推理任務。當然,基於FPGA的解決方案和針對AI推理的各種定製ASIC理論上可以提供類似或更好的的延遲表現。