AI:我像真正的小朋友一樣挖礦!《我的世界》:不你不像_風聞
重度选择恐惧症患者-2020-01-16 14:40
來源:Nature自然科研
原文作者:Jeremy Hsu
MineRL競賽鼓勵程序員開發能從示例中學習的程序。
想要區分最先進的人工智能和七歲孩子的智力差距,只要用風靡全球的電子遊戲《我的世界》(Minecraft)就夠了。小朋友只需在Youtube上觀看十分鐘的演示視頻,就能學會如何在遊戲中尋找稀有的鑽石——而這是AI無法企及的高度。不過,在不久前剛結束的一場特殊的計算機競賽中,研究人員企圖縮小機器與兒童的智力差距,同時減小訓練AI時的算力需求。
一些研究人員表示,《我的世界》中開放終端的遊戲環境很適合用於AI研究。來源:微軟
**在這個競賽中,選手需要在4天時間內用不超過800萬步計算來訓練他們的AI找到鑽石。**雖然這還是比小朋友的學習時間要長很多,但是比目前典型的AI模型要快了不少。
這次比賽的目的在於促進模仿學習方法的發展。模仿學習與目前流行的強化學習有很多不同。強化學習的程序通過幾千或幾百萬次的試錯來尋找最優流程,被網飛(Netflix)用於生成用户推薦信息,為工廠中的機器臂創建訓練方法,甚至能夠在遊戲中打敗人類。但實現這一切需要大量的時間和計算資源。想要將強化學習用於構建安全的自動駕駛算法或掌握圍棋等複雜遊戲,需要成千上萬台計算機並行工作,運行抵得上幾百年的模擬,而以上這些只有財力雄厚的政府或企業才能實現。
**模仿學習則可以通過模仿人類甚至其他AI算法完成任務,提升學習效率。**而前面提到的編程比賽“MineRL”(讀音同“mineral”)就鼓勵選手使用這種技術教AI打遊戲。
這一比賽的組委會負責人、來自卡內基·梅隆大學的理論深度學習博士生William Guss表示,僅靠強化學習是無法在這一比賽中獲勝的。通過隨機的方式,AI也許可以在800萬步中成功砍倒一兩棵樹,但這僅僅是製作鐵鎬的先決條件之一,有鐵鎬才能開採鑽石。Guss説:“探索真的很難很難,而模仿學習為你提供了良好的環境先驗信息。”
比賽由卡內基·梅隆大學和微軟共同資助。Guss和同事希望,除了在遊戲中找到寶石,比賽還能產生更大的影響,比如激發選手拓寬模仿學習的邊界。**這樣的研究最終能讓研究人員訓練出更好的AI,除了能在充滿不確定性的複雜環境中游刃有餘,它們還能在多種環境中與人類更好地交互。**谷歌DeepMind的研究科學家、比賽顧問委員會成員Oriol Vinyals表示,模仿學習是學習和發展智能技術的核心,“它讓我們無需從頭開始逐步迭代學習就能快速掌握一項任務技能。****”
學打遊戲
競賽組織者認為《我的世界》是一個難得的虛擬訓練平台,玩家在遊戲中表現出大量智能行為。**特別是在很受歡迎的生存模式中,玩家需要與怪獸作鬥爭、覓食或種植食物並不斷收集各種能建造房子和工具的材料。**新玩家需要學習遊戲中的物理定律,以及如何將材料轉換為資源和工具的訣竅。這款遊戲因為能讓玩家釋放無限創造力而風靡全球,比如用塊狀結構搭建虛擬的埃菲爾鐵塔、迪士尼樂園、星球大戰中的死星塹道疾飛、甚至是一台可以在遊戲裏工作的計算機。

在MineRL競賽中,AI選手需要從《我的世界》中的一個隨機位置開始,在沒有任何工具的情況下,完成一系列任務,找到鑽石。來源:William H Guss/MineRL
為了構建用於競賽的訓練數據,MineRL的組織者開設了一個《我的世界》的遊戲公服,並聘請玩家完成一系列為特定任務設計的挑戰,例如製作不同的工具等。最終他們收集了在給定情境下的6000萬個動作樣本,併為參賽團隊提供了約1000小時的行為記錄。這些記錄是目前為止第一批也是最大一個專注於模仿學習研究的數據集。
競賽的主要目標是利用模仿實現“自舉”學習,讓AI不再需要耗費大量時間來探索環境,發掘符合第一性原理的可能性,而是利用人類已有的知識。來自加州大學伯克利分校的博士生Rohin Shah表示:“據我所知,目前沒有哪一個AI競賽是專注於解決這個問題的。”
在雲計算和海量數據的促進下,AI研究領域的最新論文主要以強化學習的成果為主。但模仿學習的研究正在迎頭趕上,部分原因在於,強化學習的試錯方法存在限制。Katja Hofmann是微軟劍橋研究院遊戲智能研究組首席研究員(注:微軟在2014年以25億美元收購了《我的世界》的開發團隊)和MineRL競賽組委會成員,他認為這種試錯的學習方法需要訓練數據能覆蓋不同環境交互的所有可能性和結果。但從複雜的現實世界中很難獲取這類數據,因為想要收集所有糟糕決策的結果既不容易也不安全。
以自動駕駛汽車為例,通過強化學習訓練它們可能需要幾千或是幾百萬次的試錯,才能讓它們學會如何區分安全駕駛和危險駕駛。而模擬駕駛環境無法包含所有在真實環境中可能導致車禍的情形。如果讓自動駕駛汽車在大街上不斷衝撞來學習如何開車,就太危險了。Hofmann説,除了安全問題,強化學習還需要龐大的算力,這些資源動輒幾百萬美元。
與強化學習純粹從零開始的學習方法不同,模仿學習選擇了一條捷徑,通過從示例中學習來獲得有利優勢。模仿學習已經在強化學習之外找到了自己的位置。近年來一些著名的AI演示都是從利用模仿學習構建的基礎模型出發,結合這兩種訓練方法,像是2017年打敗人類圍棋大師的AlphaGo算法。
**當然,模仿學習也有侷限性。****一是它傾向於給出在訓練樣本中見過的解決方案,這種訓練方式會讓AI失去靈活性。**Shah説:“一旦AI系統犯了一個錯誤或偏離了人類的行為方式,它便會進入一個和演示完全不同的情境,由於沒有見過這種狀況,它會更加迷茫、錯上加錯,引起非常不堪的結果。”
儘管如此,很多科學家依然看好這項技術的潛力,特別是用於為特定目標訓練AI。微軟雷蒙德研究院自適應系統和交互組首席研究員Debadeepta Dey表示,“與強化學習相反,模仿學習的優點是,你可以為AI演示任務成功的樣子,這確實能大幅加快學習步伐。”
為了拿到鑽石,由AI控制的玩家(或稱智能體)在MineRL競賽中需要掌握的技能有點多。首先,它們需要採集木頭和鐵來製作鎬;然後製作火把照亮前路;它們可能還要帶上一桶水來撲滅地下的岩漿。當這些都齊備之後,AI才能開始在礦井和山洞裏探索,同時在地下挖掘鑽石礦。
比賽要求參賽者使用不多於六個中央處理器和一個英偉達顯卡的硬件平台訓練他們的AI——這個配置是大多數實驗室可以負擔的。超過900支隊伍註冊了第一輪比賽,最終有39只隊伍提交了訓練後的AI玩家。其中,訓練後AI挖掘鑽石能力最強的10支隊伍進入到了第二輪比賽和決賽中。這些AI玩家有的學會了採鐵礦石和製作高爐——製造鐵鎬的兩個先提條件。但Guss不認為這些AI玩家可以找到鑽石——至少在第一屆比賽中是無法實現了。
儘管競賽面向一個具體的任務,但它能激發人們利用《我的世界》進行更廣泛的AI研究。Shah表示,“我對《我的世界》很感興趣,因為這個世界中的人有着不同的目標,《我的世界》不會讓你只做‘一件事’,這也為AI學習人類的各種目標創造了很好的測試環境。”
即使遊戲中的圖形和規則無法從物理上反映出我們的真實世界,但在《我的世界》中高效訓練AI的方法也可以讓機器人等領域的AI學習加速。德國達姆施塔特工業大學智能自動化系統實驗室的研究人員Joni Pajarinen表示,MineRL比賽的結果可以在真實世界中產生影響,比如用於複雜部件的機器人裝配以及其他需要進行復雜行為學習的領域。
最後一輪比賽已經結束,Guss和其他的組織者將會審核提交結果,並找出最厲害的採鑽小“人”。最終的結果已於12月6日在加拿大温哥華舉辦的神經信息處理系統(NeurIPS)會議上公佈。
如果MineRL比賽繼續舉辦併成為一項傳統,就能作為追蹤模仿學習進展的公開基準。Shah説:“MineRL鼓勵人們開展更多的模仿學習研究。雖然模仿學習對真實世界應用的重要性還有待驗證,但我很有信心。”
原文以AI takes on popular Minecraft game in machine-learning contest為標題發表在2019年11月26日的新聞特寫上