陳根:當人工智能與猜拳狹路相逢,石頭剪刀布還隨機嗎?_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2020-09-04 08:19
文/陳根
如果説,有一種決策的方法能跨越文化、種族和地域的限制,那麼除了抽籤這種純靠運氣的方式,恐怕只剩下猜拳了。
猜拳被長久地使用在生活中不需要太多思考的決策裏,一般認為,玩家獲勝的概率應該是一樣的,即恆定的30%左右,從長遠來看,這使任意玩家同樣有可能贏、平或輸。這就是所謂的混合策略納什均衡,在這種均衡中,每個參與者在每一輪中以相等的概率選擇三個行動。
但事實可能並非如此,來自浙江大學的研究團隊的研究發現,真正的玩家的策略看起來是隨機的,但實際上是由可預測的模式組成的,狡猾的對手可以利用這些模式來獲得重要的優勢。
具體來説,研究團隊開發了一個基於基於n-階馬爾可夫鏈的人工智能模型——Multi-AI,這意味着Multi-AI 擁有記憶性,能夠向前追溯最多 n 個歷史狀態並加以利用。研究人員將單個模型結合起來,應對人類玩家的不同性格和策略。
如果人類玩家連續勝利,就會促使 Multi-AI 轉向選擇其他人工智能模型的更優解。如果人類玩家連續失敗,大概率會轉換策略,或者打破之前的出拳規律,這時 Multi-AI 也可以隨之調整。
這意味着一種不同的博弈策略。即****Multi-AI 模型更強調針對不同玩家之間的個性差異、出拳策略,來及時的進行調控,選取當下最適宜的博弈策略。
最終實驗結果發現,在和52名人類玩家分別大戰300回合之後,人工智能擊敗了95%的玩家。由於比賽規則是贏+2分,平+1分,輸不得分,且參與者均知道獲勝會獲得金錢獎勵,總分越高,贏的錢越多,因此玩家故意放水或者隨便亂選的可能性極小。
即便如此,人工智能仍然大勝人類。在最懸殊的一場較量中,人工智能獲得了198次勝利,55次平手,僅輸了47次,勝率超過人類對手4倍。
當然,這項關於猜拳的最新研究,成果不僅僅是一個很厲害的猜拳人工智能,還是一個很厲害的循環制衡模型分析師,這意味着****人類的競爭行為確實有規律可循,而通過使用適當的簡單模型就能利用這些規律。研究人員認為,該人工智能模型未來有望拓展到其他博弈場景,比如預測競爭對手的下一步舉動,規劃更有效的競選策略,或者制定更有利的定價方案等等。