海量數據時代,如何押寶人工智能競賽?_風聞
硅谷洞察-硅谷洞察官方账号-2019-08-30 10:10
贏得人工智能競賽的三大法寶:數據+算法+算力。
人工智能是一種變革性的技術浪潮,能夠幫助每個行業的用户解決大大小小的問題,從探索宇宙奧秘的科學研究、到惠及民生的健康和精準醫療,再到與生活息息相關的運輸和自動駕駛汽車。
人工智能的應用場景大到結合大數據和深度學習分析大型強子對撞機產生的大量原始數據;小到給語音助手裝上耳朵和腦袋聽懂用户的語句,並實現簡單的對話或互動。
人工智能那麼遠,又那麼近。
可以説,隨着技術的不斷成熟和普及,人工智能能夠賦能我們來應對各種人類的挑戰,科學家可以藉助人工智能提高科研的生產力,加快造福全人類的進程;企業也可以通過人工智能的無限潛力創造新的收入來源並提高他們的底線;消費者也能繼續看到更多新的應用程序。
今天硅谷洞察就來給大家分析一下,人工智能已經為各種行業領域帶來了哪些轉型影響。
超級計算機是什麼?
提到宇宙研究就不得不提用於科學研究的超級計算機。小探最初聽到超算這個概念是在《三體》的小説中,大劉有這麼一段描述。
(2008年出版科幻小説《三體II:黑暗森林》片段)
浮點運算的次數代表着計算機的計算實力。而11年前的科幻小説早已被現實超越。在剛剛落幕的國際超算大會公佈,位於田納西州能源部橡樹嶺國家實驗室(ORNL) 由 IBM 製造的超級計算機 Summit 以 148.6 PetaFlops (千萬億次)的HPL記錄獲得了世界最強的超級計算機稱號。簡單算一下,Summit計算速度已經達到《三體》中超級計算機的近300倍。
科學技術的發展已經超乎我們的想象,曾經遙不可及的未來也已經到來。
超級計算機,其實是指眾多高性能計算機節點連接在一起,統一調度管理,從而實現強大的計算功能。簡單的説就是價格在10萬元以上的服務器。這些機器主要分佈在大學或者科研機構服務的領域非常高精尖,都是關係着人類發展的重要領域,例如全球氣候變化,宇宙探測分析、大腦仿真、開發新材料、生物醫藥、智慧城市等實際問題。
可以看得出來,這些研究的特點是大量數據需要分析模擬得出規律,從而進行預測。如果你需要模擬一大堆無厘頭的物體之間的相互關係,就一定需要“高性能計算”。
舉個例子,歐洲核子研究中心歐洲核子研究中心的大型強子對撞機(LHC)周長27公里,超過6,000個超導磁體,是世界上最大的機器和最先進的科學儀器。大型強子對撞機能夠將質子加速到99.9999991%的光速,併產生非常高的能量碰撞,在某些情況下比我們的太陽核心高出100,000倍。
這些實驗產生了大量的原始數據。大型強子對撞機每秒發生多達10億次碰撞,每秒產生多達1 PB(1,024太字節或100萬千兆字節)的數據流經歐洲核子研究中心的系統——遠遠超過世界上最重要的研究機構所能存儲的數據。就需要使用專有軟件以及超強的計算力才能過濾此數據。
氣候預測同樣需要高性能計算。氣候預測,廣泛來看就是對全球氣流、洋流等等的預測,侷限來看就是天氣預報。天氣預報的基本原理,就是通過氣象衞星捕捉地圖上每一個點的雲層和氣流運動軌跡,然後通過大量的計算推導出他們未來的走向。
高性能計算與人工智能深度融合
超算與人工智能的融合將引領下一代計算機體系結構和系統軟件應用的發展。
研究表明,運行大型高性能計算應用程序可以通過向現有高性能計算機羣(High Performance Computing,簡稱HPC)工作流程添加深度學習功能來實現顯着的效率。深度學習神經網絡固有的並行性非常適合高度並行的HPC環境,其中極端的計算性能,大容量內存池和優化的節點間通信結構可以顯着擴展深度學習網絡識別結構和模式的能力。
美國能源部科學辦公室與加州大學伯克利分校選擇與英特爾合作,將深度學習與HPC基礎設施相結合,創建了一個15-PetafFlop深度學習系統,用於解決科學模式分類問題。
這個深度學習系統將單個深度學習模型的訓練擴展到科裏(Cori)超級計算機上多達 9600 個基於英特爾至強融核處理器的節點。該模型能夠更有效地從在數據多達 15TB 的氣候數據集中提取天氣模式。結果證明,處理大型複雜數據集時,將深度學習培訓優化並擴展到多核HPC系統具有顯著優勢。
科裏(Cori)超級計算機
除了幫助處理極其複雜的數據之外,使用HPC基礎設施進行深度學習的第二個主要好處是大大改善了深度學習算法訓練的響應時間。
被評為全球第五快的超級計算機,德克薩斯高級計算中心 (TACC) 將使用英特爾至強鉑金 8200 處理器為自己的 Frontera 系統提供動力,支持國家科學基金會資助開展的多層面先進研究。
Frontera 還將整合超過 100TB 的英特爾傲騰數據中心級持久內存,這是該技術第一次在如此大的規模上得到應用。這種將持久內存置於高性能計算系統附近的做法將能夠實現極其複雜的模擬、人工智能算法和內存分析。Frontera 將有助於展現在高性能計算系統上進行大規模並行人工智能推理的可能性。
位於德克薩斯高級計算中心的超級計算機Frontera被評為全球第五快的超級計算機
不僅在前端的超算中心的應用,瞄準“數據”,勾畫AI全棧解決方案的英特爾AI加速技術在商用領域也廣泛應用。
科大訊飛是中國最具創新力的公司之一,為通信、音樂和智能玩具等行業中應用的眾多語音產品提供支持。“語音引擎”無疑是科大訊飛的拳頭產品之一,它已佔據中文語音技術市場70%以上的份額。但更重要的秘訣,其實是科大訊飛的 AI 核心戰略:打造以人工智能為核心的開放平台。
語音識別想要獲得更好的識別效果,就需要對框架進行大量的數據訓練,這將帶來海量的計算工作量。在一項數據訓練中,每一萬小時的語音數據約產生6000PetaFlops的計算量,這個計算量即便是用超級計算機Summit,也需要近1個小時的工作時長。
人工智能三要素是數據、算法和算力。
對於已經有了大量的數據基礎的訊飛AI開放平台,科大訊飛19年的語音研發歷程,讓他們有自己一套獨特的算法。自研了FSMN、DFCNN 等創新的語音識別框架在神經網絡、數據結構模型、數據處理方式上,也相當老道。
剩下的核心關鍵,就是計算力了。海量用户上傳來數據後,深度學習需要對數據進行大量的訓練。這將帶來巨大的計算工作量。科大訊飛意識到深度學習的發展不僅需要頂層應用的精進,也離不開底層平台在計算、數據處理和算法優化上的支持。
科大訊飛很清楚,除了傳統的深度學習計算平台外,還希望構建更多的、基於不同技術方案的深度學習計算平台,增加選擇上的多樣性。他們需要一套深度定製的人工神經網絡專屬芯片系統才能支撐住這個巨無霸平台既然找芯片層面的合作商,英特爾成了他們的不二選擇。
經過了三年,與英特爾的合作從最開始的硬件與基礎設施的支持逐步加深,科大訊飛發現英特爾在人工智能、深度學習上的硬件技術優勢和能力強大之外,英特爾通過不斷地對核心計算和存儲產品更新迭代,對深度訓練應用和算法優化,對訊飛AI平台的改進提供了重要助力。在訊飛AI雲的真實環境測試中,第二代英特爾至強可擴展處理器已經能讓CPU達到甚至超過原來GPU的性能。
現在,雙方的深度合作在代碼層級展開,不僅可以推動科大訊飛訓練平台的優化,提升其工作效率,其反饋的需求和經驗,也促進了用於人工智能的新一代英特爾至強融核處理器(Knights Mill),以及其他英特爾深度學習軟件工具和庫的優化。
不得不説,懂算法的科大訊飛與懂計算的英特爾強強聯合的模式,構建了一個業界頂級的人工智能開放平台。離能看會想,能聽會講的人工智能,越來越近了。
英特爾打破AI理論與現實的壁壘
對於如何更高效地利用和處理數據,全世界範圍內的服務提供商和最終用户都看到了人工智能帶來的諸多益處。
英特爾對數據處理很有信心,認為從數據科學工作站到雲端,最後再到推理設備,一整套完備的工作流程至關重要,因為這不僅關係到數據處理,也關係到數據的移動和存儲。
從硬實力到軟實力,英特爾不斷在自己的全套肌肉中融入智能,加速AI的實踐應用。就像他們不斷聲明的一樣,英特爾正積極的向人工智能公司轉型。
在剛剛結束的Hot Chips 2019上,英特爾公佈了首款AI芯片Nervana 神經網絡處理器的技術細節。兩款處理器都將用於數據中心,NNP-T 用於雲端訓練,NNP-I 用於雲端推理。
隨着AI芯片的推出,以全面AI優化的全棧式解決方案押寶人工智能未來,英特爾的版圖似乎更加完整了。
你覺得贏下人工智能時代,企業最需要哪些技巧和實力?歡迎大家留言討論。