星際2職業高手史上首次被AI擊潰 AlphaStar一戰成名
《星際2》,人類首戰告負。
2016年3月DeepMind團隊的AlphaGo擊敗世界圍棋頂級棋手李世石,但在AlphaGo還名不見經傳時,它首先是與職業棋手樊麾較量取得勝利,而如今該團隊設計的新的AlphaStar同樣擊敗了星際2的職業選手TLO和MaNa。
TLO是一位德國職業星際2選手,原名Dario Wünsch,1990年7月13日出生。現在效力於職業遊戲戰隊Liquid。根據官方公佈的數據,TLO在2018 WCS Circuit排名:44。

(德國職業星際2選手TLO)
MaNa是一位出生于波蘭的職業星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力於Liquid。MaNa去年獲得WCS Austin的第二名。根據官方公佈的數據,他在2018 WCS Circuit排名:13。

(波蘭的職業星際2選手MaNa)
1月25日,DeepMind 的AI AlphaStar 首次亮相。DeepMind 公佈了其錄製的 AI 在《星際爭霸 2》中與2位職業選手的比賽過程:AlphaStar 分別以5:0的成績戰勝了兩位職業選手 TLO 和 MaNa 。

最後直播的一場比賽中,DeepMind限制了AlphaStar的遊戲視角,並在沒有測試的前提下與MANA進行比賽,讓人類終於贏了一場。
如何打造****AlphaStar
對於如何訓練AlphaStar,DeepMind 科學家 Oriol Vinyals、David Silver 表示,首先是模仿學習,團隊從許多選手那裏獲得了很多比賽回放資料,並試圖讓 AI 通過觀察一個人所處的環境,儘可能地模仿某個特定的動作,從而理解星際爭霸的基本知識。這其中所使用到的訓練資料不但包括專業選手,也包括業餘選手。這是 AlphaStar 成型的第一步。
AlphaStar學會打星際,全靠深度神經網絡,這個網絡從原始遊戲界面接收數據 (輸入) ,然後輸出一系列指令,組成遊戲中的某一個動作。

再説得具體一些,神經網絡結構對星際裏的那些單位,應用一個Transformer,再結合一個深度LSTM核心,一個自動迴歸策略 (在頭部) ,以及一個集中值基線 (Centralised Value Baseline)。
團隊會使用一個稱為“Alpha League”的方法。在這個方法中,Alpha League 的第一個競爭對手就是從人類數據中訓練出來的神經網絡,然後進行一次又一次的迭代,產生新的 agent 和分支,用以壯大“Alpha League”。

然後,這些 agent 通過強化學習過程與“Alpha League”中的其他競爭對手進行比賽,以便儘可能有效地擊敗所有這些不同的策略,此外,還可以通過調整它們的個人學習目標來鼓勵競爭對手朝着特定方式演進,比如説旨在獲得特定的獎勵。
最後,團隊在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”。
AI打星際2意味着什麼
早在2003年人類就開始嘗試用AI解決即時戰略(RTS)遊戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要複雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題後,很快把目光轉向了《星際2》。
與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而遊戲中的“戰爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。
這意味着玩家的規劃、決策、行動,要一段時間後才能看到結果。這類問題在現實世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰略和微觀操作之間取得平衡。
平衡短期和長期目標並適應意外情況的需要,對脆弱和缺乏靈活性的系統構成了巨大挑戰。
掌握這個問題需要在幾個AI研究挑戰中取得突破,包括:
• 博弈論:星際爭霸沒有單一的最佳策略。因此,AI訓練過程需要不斷探索和拓展戰略知識的前沿。
• 不完美信息:不像象棋或圍棋那樣,棋手什麼都看得到,關鍵信息對星際玩家來説是隱藏的,必須通過“偵察”來主動發現。
• 長期規劃:像許多現實世界中的問題一樣,因果關係不是立竿見影的。遊戲可能需要一個小時才能結束,這意味着遊戲早期採取的行動可能在很長一段時間內都不會有回報。
• 實時:不同於傳統的棋類遊戲,星際爭霸玩家必須隨着遊戲時間的推移不斷地執行動作。
• 更大的操作空間:必須實時控制數百個不同的單元和建築物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴充。
為了進一步探索這些問題,DeepMind與暴雪2017年合作發佈了一套名為PySC2的開源工具,在此基礎上,結合工程和算法突破,才有了現在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰:
• 4月,南京大學的俞揚團隊,研究了《星際2》的分層強化學習方法,在對戰最高等級的無作弊電腦情況下,勝率超過93%。
• 9月,騰訊AI Lab發佈論文稱,他們構建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內置機器人Bot。
• 11月,加州大學伯克利分校在星際2中使用了一種新型模塊化AI架構,用蟲族對抗電腦難度5級的蟲族時,分別達到 94%(有戰爭迷霧)和 87%(無戰爭迷霧)的勝率。
DeepMind CEO哈薩比斯在賽後説,雖然星際爭霸“只是”一個非常複雜的遊戲,但他對AlphaStar背後的技術更感興趣。其中包含的超長序列的預測,未來可以用在天氣預測和氣候建模中。
**內容根據微信公眾號量子位、****鈦媒體APP、**36氪等資料綜合整理