陳經:人類智能堡壘圍棋突然被谷歌智能攻破了,靠的是策略判斷和暴力搜索兩手都硬
2016年1月28日一早,圍棋圈和人工智能圈被一個消息給炸了:
谷歌人工智能分先5:0擊敗歐洲職業圍棋冠軍樊麾,2016年3月將分先挑戰李世石,獎金100萬美元。
Nature網站出了新聞:
谷歌的人工智能算法精通了古老的遊戲圍棋(Google AI algorithm masters ancient game of Go)

1月28日出版的Nature封面文章介紹了這個人工智能領域的重大突破。

文章第一作者David Silver
圍棋迷以前的感覺是,電腦圍棋確實進步挺大的,但要説能挑戰職業棋手,似乎還有很長時間,十年或者更長。
僅僅兩個月前,2015年11月,北京舉辦了一次“美林谷杯”電腦圍棋競賽,冠軍是韓國人工智能程序“石子旋風”(DolBaram),被讓四子、五子、六子與中國職業高手連笑七段(剛獲得名人和倡棋杯兩個頭銜)對弈。在第一局中,電腦顯得無比愚蠢,執着地與連笑打一個註定無法勝利的連環劫,消耗了大量劫材不斷虧損,對弈中連笑都笑開花了。直到讓六子,電腦才勝了一局。

連笑七段和DolBaram作者林宰範
早期的電腦圍棋代表程序是我國陳志行教授(量子化學家,跟風雲學會會長袁嵐峯是同行,2008年去世)開發的“手談”,上世紀90年代多次獲得電腦圍棋世界冠軍。那時的電腦圍棋棋力不到業餘一段,業餘棋迷們以讓多少子戰勝“手談”為談資,讓七八子都很正常。
1997年IBM的國際象棋程序“更深的藍”戰勝了人類最高水平的卡斯帕羅夫,當時興起了一股人工智能熱潮。但是圍棋迷很淡定:電腦圍棋,還差太遠,離一般業餘棋手都有不小的差距。按某種估計,圍棋的複雜度是10的170次方,比國際象棋的10的47次方多100多個0,電腦還差得遠。這個時期的圍棋程序有的搜索,有的不搜索,但基本還是與國際象棋的人工智能算法相似,被圍棋的複雜度輕易擊敗,下起來一看就很愚蠢,根本不象人。
和國際象棋類似,中國象棋也被人工智能程序攻破了。業餘象棋比賽多次傳出選手使用軟件作弊的醜聞,職業圈子中王天一、孫勇徵等大師也為之爭吵。之後圍棋逐漸成為人工智能領域的核心難題。Google、Facebook和微軟都開了圍棋研究小組。
圍棋人工智能的上一次顯著突破,是2010年左右,開發者們引入了“蒙特卡洛”算法。這種算法的特點是模擬棋局一直到下完算子判斷勝負,模擬多次後看哪個選點的“獲勝概率”最高。模擬時會利用“棋形”等經驗減少選點,一直模擬下去直至終局。時間不夠或者電腦計算能力不足,模擬的“局面數”就少,棋力就低。這是一個基於概率的暴力搜索算法,確實取得了突破。代表程序有日本的Zen,法國的CrazyStone,以及前面提到的DolBaram(在北京擊敗了Zen與CrazyStone)。中國電腦圍棋開發者這時落後了,沒有開發出水平相當的程序。這些基於蒙特卡洛算法的圍棋人工智能,已經可以輕鬆戰勝一般業餘棋手了,但是對職業棋手還是差距很大。對局時,電腦招法一般看着還可以,但有時會出現一些莫明其妙的招數,如落後時就開始瞎下。這是因為電腦根據概率評估,瞎下人應錯了它有機會勝。
研究者以及棋迷們都認為,蒙特卡洛概率暴力搜索雖然取得了棋力的巨大突破,但不是圍棋人工智能技術繼續發展的方向。即使再增加算力,增多模擬局面,棋力也不會有本質提升,戰勝職業棋手是不可能的。業餘棋迷們會驚歎於人工智能圍棋的發展,在KGS圍棋網上,排着隊和Zen等人工智能程序對局很有樂趣。但職業棋手們仍然很淡定,認為圍棋人工智能挑戰職業選手還是很遠的事。
就在前面連笑與DolBaram對弈之後,對於電腦圍棋較為了解的中國圍棋隊總教練俞斌九段評論説:
“國際象棋的電腦程序是圍繞着殺死王這一要點設計的,比較有效。而圍棋的棋子沒有大小之分,電腦無法判斷哪條大龍更大,從而無法準確做出取捨。圍棋到後盤收官變化無窮,越下到後面,盤面形勢就越複雜,這讓計算機程序難以做出正確選擇。現在設計圍棋電腦軟件的都是業餘棋手,而軟件的水平很難超過設計者,光靠電腦會記能算,想戰勝職業高手是不容易的。業餘棋手思考問題的方法與職業棋手不同,如果今年由圍棋和電腦軟件高手聯手編寫軟件,那麼,電腦圍棋的水平會有質的變化。”

國家隊總教練俞斌九段
這次Google的DeepMind小組開發的AlphaGo取得的突破,可以説打破了俞斌九段的預期。AlphaGo與中國職業二段樊麾分先下成了5:0,新浪圍棋有這五局的棋譜。看這五局棋的感覺,AlphaGo下得非常象人,一點看不出是機器下的,和以前的各種程序有顯著區別。戰績上也是壓倒性的。第一局樊麾和電腦平穩收官,輸了3目半。後面四局進行戰鬥,多次被電腦殺死大龍,全部慘敗。
樊麾雖然只是歐洲冠軍,但畢竟有中國職業段位,就算多年在低水平環境中棋力下降,業餘頂尖水平總是有的。AlphaGo也和之前最高水平的程序Zen、CrazyStone下過,分先495盤只輸了1盤。它甚至能讓4子對陣Crazy Stone和Zen,勝率分別是77%和86%。這個水平突破絕對是革命性的。
從人工智能技術發展上看,DeepMind使用了“深度學習”技術,而非象俞斌估計的和職業高手合作。電腦通過海量學習人類高手的棋譜,用深度神經網絡快速模擬出人的招法,下出來的棋就很象人了。樊麾二段説:“如果沒人告訴我,我會想對手下得有一點怪,但肯定是個很強的棋手,一個真正的人”。

樊麾二段
Facebook的圍棋人工智能程序Darkforest就是用這種辦法,不靠搜索,只用深度學習這一招就很快達到了之前研究者多年無法實現的棋力,扎克伯格1月27號正好發文介紹了這個進展。由於棋力還略低於Zen、Crazystone,所以不算是巨大的突破。
而DeepMind小組在搜索技術上取得了更大突破。跟Darkforest相似,AlphaGo用一個深度神經網絡(policy network,“策略網絡”)減少搜索的選點,象人類高手一樣,只考慮少數幾個可能的選點。此外,他們還建立了另一個深度神經網絡(value network,“值網絡”),象人類高手一樣,思考到某個局面就有了結論,不必象之前的蒙特卡洛模擬那樣下到終局,極大地減小了搜索的深度。
DeepMind引入的另一個逆天的高招是,讓圍棋人工智能自己和自己下,總結經驗,自我不斷提高!這個技術2015年2月就在Nature上發表了,標題是《玩遊戲的軟件從神經科學中吸取經驗》(Game-playing software holds lessons for neuroscience)。
這個人工智能自學習的要點是,不需要告訴電腦人類的經驗,就讓它自己玩這些電腦遊戲,只是給出玩的分數。電腦看着分數不斷糾正自己的策略,最後就發展出比人類還強的電遊技術。這次的AlphaGo也用了這個技術,這又是比其它電腦圍棋程序強的地方。從Nature的文章看,DeepMind的絕招是,用50台電腦讓AlphaGo不斷和自己對弈,下了3000萬盤棋!然後每盤棋選取一個局面(不多選,以避免同一盤棋中不同局面之間的相關性),根據這盤棋的最終結果判斷局勢優劣。這樣獲得了3000萬個訓練數據,用於訓練生成“值網絡”。暴力生成這麼多數據需要海量的計算資源和投入,確實只有谷歌這樣的大公司敢想敢做。可以看出他們的戰略是智能和蠻力兩手抓,兩手都要硬,哪個合適就用哪個,並且互相幫助。
通過這樣三招,DeepMind小組確實在圍棋人工智能上取得了巨大突破。而且研究方法的潛力很大,從這個方向上走,最終象“更深的藍”一樣戰勝人類最高手是完全可以想象的。一個月前,DeepMind小組就報告説圍棋人工智能取得了巨大突破,會戰勝人類,但當時棋迷與職業棋手並未留意。現在有了棋譜,又有了技術細節,就顯得可信多了。
職業棋手李喆在微博上説:
“Google的圍棋AI已具有職業水準。從棋譜初步判斷是頂尖棋手讓先-讓先倒貼的水平,離戰勝人類還有一小段距離。但這是三個月前的棋譜…以Google機器學習堆數據的速度,今年三月對決李世石相當值得期待。”
如果象報道的那樣,2016年三月AlphaGo真的挑戰韓國棋手李世石(過去十年獲得世界冠軍最多的棋手),這説明Google對AlphaGo非常有信心,認為三個月的時間就能進步到戰勝頂尖高手了。DeepMind小組認為,電腦圍棋的優勢在於一天可以下100萬盤棋,而且一直保持水平穩定,而人類能下的棋和能打的棋譜很有限,時間長了還會疲勞出錯。

圍棋世界冠軍李世石九段
我認為這次電腦是真的有可能在圍棋上戰勝人類。樊麾在非正式對局中兩次中盤勝AlphaGo,可見AlphaGo也是會認輸的,不是永遠纏鬥到終局,而且樊麾是有擊敗AlphaGo的棋力的,在正式比賽中可能是太緊張技術變形了。如果李世石象樊麾二段一樣心態失衡露出大破綻,肯定會被電腦抓住輸掉。即使小心應付,電腦也會有勝機。即使只贏李世石一盤,也是了不起的成就。最終,電腦以穩定的概率戰勝職業棋手將在一二年內實現。
這無疑是人工智能領域的巨大突破,預示着機器將在棋類這項“智力運動”上徹底戰勝人類。圍棋這個人類自以為還能堅固防守五十年以上的堡壘,在引發了人工智能研究領域的巨大興趣後,被機器出人意料地迅速突破了。
當然正如深度學習技術的發明人、DeepMind小組的Hassabis所言,人工智能真正的挑戰是“泛化”的能力。人工智能在圍棋上達到的超高能力,並不能轉移到其它任務上去。

Demis Hassabis,深度學習技術發明人,Google DeepMind 的CEO,AlphaGo的20位作者之一
但是從目前達到的成就來看,人工智能帶來的社會革命也許真的快來了。對於人工智能“奇點革命”有興趣的可以參考:
對於我個人,會象許多業餘棋迷一樣,非常希望Google能把AlphaGo商業化推向市場。這會是圍棋學習的一個革命:隨時隨地有最高等級的選手教你下棋。所以,暫時歡呼吧!
致謝:感謝風雲學會會長袁嵐峯博士(@中科大胡不歸 )的寶貴意見。
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。