陳根:需求導向的研究,人工智能的單台計算機訓練突破_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2020-07-23 09:10
文/陳根
**人工智能技術的發展離不開大量的數據資源,其中,最需要數據的技術之一就是深度強化學習,即人工智能通過反覆進行的數百萬次模擬、**試錯進行學習。這也意味着,資金較為缺乏的學術界實驗室很難趕上富有的科技公司。
近日,來自南加州大學和英特爾實驗室的一個團隊創造了一種方法,可以在學術實驗室常見的硬件上訓練深度強化學習算法。在2020年國際機器學習大會(ICML)上,他們發表了一篇論文,描述了他們如何能夠使用一個高端工作站來訓練人工智能。
**有趣的是,該項目的靈感來源與研究人員的研究需求息息相關。**該項目的主要作者,南加州大學的研究生AlekseiPetrenko在英特爾的暑期實習即將結束時,失去了進入該公司超級計算集羣的機會,使尚未完成的深度強化學習項目陷入危險之中。所以他和同事們決定找到一種方法,繼續研究其項目。
深度強化學習的領先方法是將一個人工智能體置於一個模擬環境中,該環境為實現某些目標提供獎勵,智能體以此作為反饋來制定最佳策略。這涉及到三個主要的計算工作:模擬環境和Agent;根據學習到的規則決定下一步做什麼,稱為策略;並使用這些操作的結果更新策略。
Petrenko表示,訓練總是受到最慢過程的限制,但在標準的深度強化學習方法中,這三項工作往往是交織在一起的,因此很難單獨優化它們。研究人員的新方法,被稱為樣本工廠,將它們分開,這樣資源就可以被專門用來使它們都以峯值速度運行**。**
Petrenko解釋説,進程之間的數據管道化是另一個主要瓶頸,因為這些數據通常會分散在多台機器上。**而其團隊利用了在一台機器上工作的優勢,簡單地將所有數據塞進共享內存,所有進程都可以同時訪問這些數據,****這極大加快了運行的速度,**而後,在3D訓練環境DeepMindLab中,他們的訓練速度達到每秒4萬幀,比第二名提高了15%。
此外,法國里昂國家應用科學研究所從事深度強化學習研究的研究生,Edward Beeching表示,這種方法可能難以應對記憶密集型挑戰,比如Facebook去年發佈的真實感3D模擬器Habitat。但他補充説,這類有效的培訓方法對於小型研究團隊至關重要。