繼星際爭霸後,科學家成功用AI來玩憤怒的小鳥,但還是贏不過人類玩家_風聞
TechEdge科技边界-2019-10-09 23:08
幾年前的熱門手遊憤怒的小鳥如今也被AI看上了。
在本週於Arxiv.org 上發表的預印本論文中 ,布拉格查爾斯大學的研究人員詳細介紹了使用Deep Q學習技術訓練的AI系統DQ-Birds,該技術是Alphabet的DeepMind率先提出的,它指示代理商在什麼情況下應採取何種行動。使用先前行動的隨機樣本的情況。 研究人員選擇實施“深層Q學習”風格的Double Q學習,該策略不同於用於選擇下一個動作的策略,用於評估第一個策略的決策。
參與項目的研究人員表示,由於順序決策,不確定性的遊戲環境,極大的狀態與角色可行動空間,同時又要求區分不同小鳥的能力和最佳射擊時間等問題,憤怒的小鳥可以説是解決人工智能代理的一項艱鉅任務。
為了在看似毫無頭緒的關卡空間中找出最佳解法,研究人員捕捉了關卡的屏幕截圖,並將之進行裁剪,同時隱藏UI等與遊戲互動無關的元素,裁剪之後在調整大小並進行規範化,接着再傳遞給Deep Q機器學習技術來找出模型。
為了學習他們的模型,團隊編輯了《憤怒的小鳥經典》的《荷包蛋》合集中的21道關卡的數據集,其中包括超過經過裁剪與整理的115,000張屏幕截圖。接下來,他們將AI系統設置為一個包含10個關卡的驗證集。研究人員指出,他們的AI玩家能夠在某些關卡中超過一組四個專業玩家的得分,但是就21個關卡獲得的得分的總和而言,它的表現其實還是追不上人類。
研究人員指出,Deep Q在嘗試讓AI玩憤怒的小鳥贏過人類玩家的這個目標並沒有成功,但已經是歷年來嘗試用AI解決憤怒的小鳥問題的案例中表現最好的一次了。
研究人員認為,目前AI解決憤怒的小鳥的不足之處,在於缺乏足夠關卡差異的訓練數據集,然而AI也常常在初次嘗試解決關卡時,首發就過關,而某些關卡的弱點過於明顯,也讓AI很難從錯誤模式中學習到不同關卡的解法,關卡完成了,但沒能提升多少AI的解題經驗。
這是很有趣的一點,可能是憤怒的小鳥本身的關卡設計邏輯並不一致所導致。