經過7萬小時訓練,OpenAI宣佈做出了最強的《我的世界》AI_風聞
游戏研究社-游戏研究社官方账号-2022-11-29 08:37

視頻是種潛力巨大的培訓資源。
Open AI最近公佈了一項他們在人工智能領域的最新成果——最擅長玩《我的世界》的AI。
厲害到什麼程度?無論是建造地堡、金字塔這些複雜的建築,跟遊戲裏的惡龍戰鬥,亦或是“白手起家”,製造出稀有的鑽石工具都不在話下,這些任務即使是交給熟練的人類玩家來做,往往也需要數十分鐘的流程以及上萬個點擊操作。
而該AI在經過訓練後,則可以在沒有任何外力輔助的情況下自主完成這一系列事件,這是此前其他AI都無法做到的。根據Open AI的介紹,能夠實現這一成果,依靠的是在模仿學習(imitation learning)技術上的新突破。
在這項技術中,AI會被訓練成通過觀察並模仿人類的行為來完成相應的任務,此前很多效果都運用到了類似的原理,比如控制機械手臂或者駕駛汽車。
既然AI需要觀察模仿,那麼就勢必需要一定量的素材,而單就“熟練操作《我的世界》”而言,各大視頻網站上的學習素材其實已經非常多,完全能夠滿足AI的學習需要。

但問題是,還需要另一項額外的工作,即“讓AI準確理解視頻裏的內容”。
《我的世界》是一款沒有明確目標的遊戲,雖然網上素材繁多,可並不能直接拿來當作學習資料,因為視頻裏的每個動作和操作,其實都需要人類為其貼上“標籤”,也就是做出相應的註釋,才能AI明白操作的含義。
如果每個動作都需要人工註釋,那效率自然會降低,為了解決這個問題,研究人員想出了一項新方法——訓練能夠自動為視頻操作貼標籤的AI。
他們先是召集了一批志願者玩家來操作遊戲,並保留了玩家們的按鍵記錄,在得到2000個小時的遊戲數據後,研究人員訓練了一個新的模型,並人工將按鍵操作與遊戲裏的效果一一對應,比如在什麼情況下點擊鼠標會讓人物揮動斧頭。
下一步便是用這個模型來處理網上海量的《我的世界》視頻,為他們貼上讓AI能夠理解的標籤。根據公佈的數據,為了得到理想的效果,科研人員提供的視頻素材長達70000個小時。
而這確實也獲得了一定的成果,比如像開頭説的那樣,AI已經學會了如何自己製作鑽石工具。而Open AI的負責人Bowen Baker表示:“我們覺得《我的世界》是一個很好的研究領域。”
由於《我的世界》沒有明確的輸贏且自由度極高,所以研究人員可以訓練AI執行更多複雜的任務,而他們認為這些工作最終可以反哺到現實——如果AI能在遊戲裏設計一張桌子,那麼在現實裏沒準也行。