騰訊麻將AI稱霸日本平台,這次玩的確實大!_風聞
元力社-07-11 18:37
今天,騰訊官方宣佈旗下麻將AI“絕藝LuckyJ”正式出道!

之所以鵝廠公佈這一消息,是因為絕藝LuckyJ在日本麻將平台“天鳳”上刷新全球最好成績,並且遙遙領先。

值得注意的是,絕藝LuckyJ取得如此成績只進行了1321局訓練,並且穩定段位達到了10.68。
僅是這些乾巴巴的數字,可能還無法體現絕藝LuckyJ的厲害,那麼繼續往下看~
天鳳麻將平台按照1到11段來進行排位,段位越高越厲害。據統計,7段以上有3037人,約佔百分之一,達到 10 段的只有27人(含AI),佔比不到萬分之一。
另外,相比之下,位居第二的AI Suphx訓練到十段的總局數為5373,被絕藝LuckyJ遠遠甩開,而排名第三的NAGA更是需要26598局。
可見,在麻將這塊,絕藝LuckyJ確實有點東西!

當然,除了在天鳳平台,絕藝LuckyJ在國標麻將線下邀請賽中也曾戰勝6位國標麻將職業選手。

之所以這次選擇在天鳳上PK,騰訊解釋道:“天鳳是知名的日本麻將競技平台,擁有較為體系化的競技規則和專業段位規則,受到職業麻將屆的廣泛認可。全世界的麻將AI基本都在這裏進行訓練和打段。”
那麼,絕藝LuckyJ是如何做到這些的呢?
這裏就不做過多介紹了,畢竟普通人着實很難看得懂。
不信請看下方論文截圖~

但是,通俗的來説,原理在於:非完美信息博弈。
騰訊AI Lab研究員為此提出新型策略優化算法ACH(actor critic hedge),採用基於強化學習和遺憾值最小化的自我博弈技術,使得AI能從零開始自我學習和提高,並最終收斂到一個最強的混合策略……
最後,對於大眾來説還有一個疑問:這玩意到底有啥用?
當然不僅僅是為了打麻將而打麻將啦!

在現實生活中存在大量非完美信息博弈問題,這些問題存在很多隱藏信息和不確定因素,需要在複雜的推理策略和帶有隨機性的博弈中做出決策。
比如自動駕駛汽車在道路行駛時,會面臨各種未知突發狀況,一旦出現問題,汽車該如何操作,就需要依賴這一算法進行決策。
麻將AI絕藝LuckyJ的訓練,將提升AI對人類世界的認識。
這一成果未來可以應用到自動駕駛、金融交易、交通物流、拍賣系統等等領域,以解決現實世界的問題。
最後,你認為AI未來還會在哪些領域戰勝人類呢?