媒體解析20萬元猜拳策略研究重要意義：是博弈論的一項人性研究

2014-05-09

一項以“石頭剪刀布”遊戲作為研究模型的中國科研成果4月21日發表在電子預印本文獻庫（arXiv.org）中。緊接着，美國《麻省理工科技評論》（MIT Technology Review）、美國廣播公司（ABC）、英國廣播公司（BBC）等媒體對此項研究作了報道。這項經費20萬元的跨學科項目原名“可控實驗社會博弈系統中一些非平衡統計物理問題”，研究報告達21頁。然而，成果在國內卻惹得罵聲一片，甚至有網友批評科學家“閒得蛋疼”。

在中科院院士歐陽鍾燦看來，網絡上對於“石頭剪刀布”研究的激烈反對，體現出社會對科學研究的不理解。“石頭剪刀布”論文的第三作者、中科院理論物理所研究員周海軍則表示：“公眾不理解我們的工作其實也是對的，他們的批評説明他們是關心科學的，那麼科學家就要儘可能用公眾能聽得懂的語言去表達。”

在英國倫敦的科學博物館，一名工作人員與一個名為BERTI的機器人在玩“剪刀、石頭、布”的遊戲。

石頭剪刀布！一項熱鬧的科學研究

紐約時報曾做了一個小猜拳機器人跟你玩，計算機分成兩個難度模式：初學者（Novice）只會根據你的出拳習慣來猜你下一個會出什麼，而高難度（Veteran）等級則會從收集了超過二十萬場剪刀、石頭、布的數據庫中，猜你的下一步會出什麼。（下圖）

紐約時報曾做了一個小猜拳機器人跟你玩

日本東京大學奧石川實驗室研製的一款智能機器人，它是一隻機械手，能夠與人類玩“石頭剪刀布”遊戲，並且實現全勝戰績。（下圖）

日本東京大學奧石川實驗室研製的一款智能機器人

從根本上講，這款機器人是一個欺騙者，擁有超高速視覺系統能洞察對手的手指動作，僅用1毫秒時間分析對手，之後選擇能夠戰勝對手的手勢。

在科學論文裏，“石頭—剪刀—布”並非生僻的關鍵字。真正涉及“石頭—剪刀—布”遊戲的研究橫跨各種領域。從心理學到生理學再到數學，得出了很多有趣的發現。

幾天前，浙江大學、浙江工商大學和中科院理論物理研究所的研究者在預印本網站上發表的一份研究報告，被國內媒體廣為轉載。科學家們通過實驗發現了“石頭—剪刀—布”的一個制勝策略，引起了網上的濃厚興趣。

小小兒戲也有人研究，很多人感到奇怪。其實，“石頭—剪刀—布”在全世界都有研究者，也給一些科學家帶來了靈感。

猜拳實驗到底想研究什麼

浙江大學、浙江工商大學和中科院理論物理研究所這項經費20萬元的跨學科項目叫做“可控實驗社會博弈系統中一些非平衡統計物理問題”。21頁的研究報告4月21日發表在電子預印本文獻庫（arXiv.org）。很快，美國的《麻省理工技術評論》、美國廣播公司（ABC）、英國廣播公司（BBC）等媒體對此作了報道。5月初，國內媒體也注意到了這項研究。

2010年12月起，三位學者開始做“石頭剪刀布”的實驗。360名大學生分成12組接受測試，讓大學生們與電腦比拼300輪的“石頭剪刀布”，並且知道自己的輸贏多少。

研究者發現，在玩“石頭剪刀布”時，贏家傾向於下一輪出同樣的拳、輸家傾向於改變。或者説“勝留輸變”。認識到這個統計結果，想贏的人就可以針對上一次的勝負和出拳，預判出對手的傾向，增加自己贏的概率。

儘管文章作者因論文尚未正式發表，不接受媒體採訪。但論文受到關注的“制勝策略”並非論文的主旨。這篇論文實際上是探討“納什均衡”在真實博弈中是否成立。所謂納什均衡，就是大家為了多贏少輸，出拳會傾向於三種可能各佔1/3比例，但在真實實驗中，開始出拳是均衡分佈的，後來卻有了偏向。或許，在大家都學習了“制勝秘籍”後，納什均衡才能恢復吧。

石頭剪刀布也有世界錦標賽

儘管大家感到新奇，但探討石頭剪刀布輸贏的方法，也不單是中國人的興趣。2007年，《新科學家》雜誌刊登的一項研究表示，想要當上這個遊戲的冠軍，首先應該出剪刀。他們統計發現，在三種手勢中，人們最喜歡出石頭。這意味着對手有可能選擇布，因為他們大多以為你第一招便會出石頭。因此你的選擇應該是剪刀。

而全球規模最大的“剪刀石頭布”俱樂部，“WorldRPSSociety”，在網站上貼出了他們總結的勝法8條策略。第一條就是“新手會出石頭”。

還有一條策略提到，上一回合的輸家，接下來很可能會出自己上一招的克招。比如上一招出 “石頭”輸掉了，下一輪很可能會出“布”。這倒是跟中國的研究結論暗合。其他的策略都是心理戰，包括跟對手透露自己下一輪要出的招數等等。

上述俱樂部每年在加拿大舉辦“世界剪刀石頭布錦標賽”，冠軍能拿到幾千美金，還有電視台轉播。俱樂部除了出書，還出過紀錄片。論壇上的玩家們，在簽名檔裏驕傲地列出自己的比賽成績和冠軍頭銜。

出現在不同學科的關鍵詞

在科學論文裏，“石頭—剪刀—布”並非生僻的關鍵字。生態學論文很喜歡使用這一組詞，生物鏈上彼此制約的態勢，是生態學者喜歡探討的複雜情況。

真正涉及“石頭—剪刀—布”遊戲的研究，橫跨各種領域。從心理學到生理學再到數學，得出了很多有趣的發現。

2011年英國倫敦大學學院一項研究表明，遊戲者們會不知不覺模仿了對方的手部動作，使得平局增多。實驗中，比起戴眼罩的情況，參賽者能夠看見對手時，平局的概率會增大。因為參賽者似乎無意識地模仿其對手的細微手勢。以前科學家無法分辨人類模仿動作是有意識的還是無意識的。剪刀石頭布的實驗表明，他們肯定是無意識的，因為參賽者想要贏，而不是平局。

還有利用這個遊戲探討大腦認知規律的。今年三月，歐洲科學家發表了一項心理實驗研究。實驗者要跟電腦對抗石頭剪刀布，電腦會改變策略，調整偏重；實驗者為了多贏，就得及時跟着調整。總體上，科學家們得出了一個結論：電腦的策略越簡單，實驗者的調整也越有效（此結論稍顯廢話，但畢竟由實驗證明了）。

韓國曾有一項研究，測試在石頭剪刀布比拼中，精神分裂症患者是否能像一般人那樣，為了不被捕捉到規律而隨機化出拳。

而美國羅切斯特大學2005年發表的一項研究，讓猴子跟電腦玩剪刀石頭布，研究它們如何學習和做出決定。

2006年，日本通過檢測人的腦電波圖，讓電腦在7秒內判斷出人類出哪一種拳，準確度達到85%。

而在數學和博弈論方面，剪刀石頭布也是常被討論的一種模型。還有人專門寫了一本書——《石頭剪刀布：每日生活中的博弈論》。還有人把這種遊戲的策略空間與混沌概念聯繫到一起。

不久前，大連科技大學的數學家們還發表了一篇《石頭—剪刀—布—蜥蜴—斯波克遊戲中的黃金分割點原則》，探討了遊戲中各種可能策略之間的勻稱比例。

日本人格外青睞的研究對象

上述的“蜥蜴和斯波克”遊戲，是猜拳的一種進階版，加入了更多的角色和勝負關係。實際上，猜拳遊戲可以增加無限多的角色，只要你比劃得出，記得住。有人設計了一種15種手勢的猜拳遊戲，包括“水、火、狼”等等，每種角色都有7個天敵和7個手下敗將。

這麼多猜拳變種，哪一種更好玩呢？日本有數學家發表論文，探討了猜拳的策略多變性，並且提出一套數學式子，符合它的猜拳規則，策略是最多變也最有趣的。

對剪刀石頭布的研究許多來自日本學者。他們對於探討這項遊戲十分有興趣。東京大學去年還發明瞭一種猜拳機器人“Janken Robot”。它用高速攝像頭，在1毫秒時間內分析人手形狀，判斷即將做出是何種手勢，然後用機械手做出應對，反應時間只要百萬分之一秒。這個機器人百戰百勝，人類跟它對戰沒有贏得可能性，實際上它是一個後出手的作弊者。

日本人研究猜拳的熱情不難理解。名為“jenken”的石頭剪刀布遊戲，實際上是他們的國民娛樂。日本的電視綜藝節目上，明星們精神飽滿，煞有介事地猜拳，比拼勝負。走紅的流行樂合唱團，舉辦全國直播的猜拳大會，決定誰能成為演唱下一首歌曲的主將。日本人還發明瞭高級的猜拳娛樂——野球拳（棒球拳），就是合着民族樂器三味線和太鼓的節奏，一邊跳舞，一邊出拳。

日本有猜拳決定的文化。孩子們有了分歧，往往用猜拳決定；還用猜拳選舉班長；用猜拳決定優先權。日本的“jenken”相當於歐洲人的丟硬幣。2005年，日本收藏家橋山高吉想要拍賣幾幅名畫，克里斯蒂和蘇富比兩大拍賣行都想獲得拍賣權。高吉決定讓這兩家拍賣行用“剪刀石頭布”定勝負。克里斯蒂拍賣行最終以“剪刀”獲勝（他們一位主管的小孩兒出的主意，她説：“因為每個人都以為你會出石頭。”）

既然猜拳在日本人生活中如此關鍵，研究它當然就不是一件奇怪的事。

有研究表明，現代的猜拳遊戲是從日本流傳到全世界的。還有人提出，日本的“Jenken”是從中國引入。有趣的是，在中國山東等地，小孩子玩的猜拳遊戲，發音跟日語中的“jen-ken-po”是一樣的。猜拳的源流和演變是如何的呢？這是一個還沒人研究過的歷史語言學題目。

觀點

共享科學之有趣，應鼓勵人人發言

“剪刀石頭布”的研究一出，引起了網上很多反應。幾乎所有媒體的評論，都在支持這項研究，抨擊那些認為“該研究白花經費”的網民。有評論者不客氣地説：“你覺得可笑，恰恰説明你自己可笑。”

我的感覺是：其實在輿論廣場上，可笑與否不重要，大家都有權亮出自己的意見。不論科學家還是普通人。不論支持還是反對，這條新聞的製造者，轉發者，評論者，大家都是在享受一個少見的研究主題帶來的遐想和熱鬧。只不過表達方式不同罷了。那些説“閒得蛋疼”的網友，我相信並非真心跟這項研究過不去，只是用一種方式調侃和吸引關注。

科學能不能調侃？能不能反對？能不能質疑説它“白花錢”？我覺得可以，而且參加討論不應該有門檻。一個文盲也有權反對科學研究，只要他是納税人，是科學經費的來源。他有發表意見的自由嘛。即使説“我就是看不慣，覺得沒意義”，也未嘗不可。

論文作者之一、中科院理論物理研究所研究員周海軍在一次學術會議上的發言：“我覺得很好，公眾不理解我們的工作其實也是對的，他們的批評説明他們是關心科學的，那麼科學家就要儘可能用公眾能聽得懂的語言去表達。”

科學家們板起面孔，穿上白大褂，要求公眾無條件支持神聖的探索，過去曾很有效，但也是一種懶人辦法。今後為了吸引經費，科學家們必然要將自己的研究表述得更明白，更有趣，更有利於公眾支持。

對那些認定了實用價值，一點都不重視趣味性的反對者，科學家們若沒有相應的溝通方式，而是指斥其為“無知、庸俗”，寄望於後者自慚形穢地退場，那就不會有好效果。

要把“剪刀石頭布”的實用意義講清楚，其實也不難：它是博弈論方面的一項研究，探討人們是否真有數學家所認為的充分理性，幫助我們深入地理解人性。我相信這一課題，即使不那麼有趣，也不會被注重效益的資助人給否決掉的——僱了360人做有獎測試，20萬元也不多嘛。

直擊：對與錯

5月5日下午，中科院理論物理所戰略委員會正在召開2014年度會議。會議的報告人之一，正是“石頭剪刀布”論文的第三作者、中科院理論物理所研究員周海軍。

而由於“石頭剪刀布”的研究飽受爭議，報告前周海軍決定，將原定的報告內容壓縮，只談“石頭剪刀布”。

“因為論文還沒有正式發表，所以我下面講的一切，都可能是錯的。”周海軍直言。

當他介紹起“石頭剪刀布”的遊戲規則和實證研究過程時，坐席間不時傳來輕微的笑聲。而當他介紹到數據分析的方法和思路時，場內的聲音消失了。

“這是一項科學研究，是對納什均衡理論的挑戰。”中國科學院院士張煥喬在接受《中國科學報》採訪時評價。

“這應該不是三歲小孩能做的。”面對佈滿屏幕的公式，周海軍感慨，“我從來沒列出過如此長的公式。”

不過，張煥喬認為研究還存在不足之處，比如，研究的抽樣數據還有侷限性，關於偏離後的分佈究竟如何，需要進一步將抽樣樣本擴大，而且要考慮文化、年齡等因素。

對於會場上包括十幾位院士在內的“大咖”們的質疑，周海軍直白地回答：“這些問題值得我們繼續做實驗。”

回顧：始與終

從2010年12月起，周海軍就和該項目負責人、浙江大學實驗社會科學實驗室研究員王志堅，以及浙江工商大學教授許彬，開始了基於“石頭剪刀布”模型的實證研究。

他們徵集了360名大學生，分成12組，讓大學生們對着電腦做300輪“石頭剪刀布”遊戲，每個人都知道自己每輪的輸贏和總的輸贏情況。實證研究一直持續到今年3月。

從媒體報道來看，最受關注的研究成果是“怎麼在‘石頭剪刀布’中能贏”。論文也將制勝策略總結為“勝留輸變”，即人們在玩“石頭剪刀布”時，贏家習慣於保持現狀、輸家傾向於作出改變。

不過，《中國科學報》記者發現，研究探討的問題遠不止這些。

“如果按照納什均衡理論，整個系統中，石頭、剪刀、布出現的行為次數應該是完全平等的，各佔1/3。”周海軍説。

所謂納什均衡理論，是1950年由美國數學家約翰·納什提出的非合作博弈模型——如果某情況下無一參與者可以通過獨自行動而增加收益，則此策略組合被稱為納什均衡點。

研究的初始數據結果顯示，石頭、剪刀、布的次數基本相同，符合納什均衡理論。

但隨着研究人員的進一步分析，他們發現，其實每經過35輪遊戲，在從“石頭”到“剪刀”到“布”的順序上，整體的行為選擇會有弱的定向偏轉現象。“這是納什理論無法解釋的。”周海軍説。

探討：深與俗

“簡單但有趣。”歐陽鍾燦對該研究評價稱，這是一項簡單的博弈理論研究，但又不是簡單地得出納什均衡結論，往後還有很多值得研究的東西。

其實，在科學界，有趣的研究並不少。其中，最著名的是2009年美國埃默裏大學的弗蘭斯·德瓦爾和薩拉·布羅斯南關於“猴子與公平”的研究。科研人員在實驗開始給每一對猴子同樣的獎賞——黃瓜，後來他們給每對中的一隻吃甜葡萄，本來很高興接受黃瓜的猴子看到同伴得到葡萄時便不再接受黃瓜，並用黃瓜襲擊飼養員。由此，他們得出結論：要求公平、公正的意識不是人類所特有的，其他靈長目動物也有。

“‘猴子與公平’的研究同樣簡單有趣，而且意義重大。”歐陽鍾燦説。

對於這場“石頭剪刀布”的輿論風波，歐陽鍾燦表示，這體現出國內公眾的科學素養還不夠，對網絡言論依舊缺少判斷。

不過，面對社會的質疑，周海軍選擇了自省：“公眾不理解我們的工作其實也是對的，他們的批評説明他們是關心科學的，那麼科學家就要儘可能用公眾能聽得懂的語言去表達。”

果殼網：“石頭剪刀布制勝策略”的研究，是浪費錢嗎？

一篇來自浙江大學、浙江工商大學和中科院理論物理研究所的論文公佈在了預印本網站上。根據媒體的宣傳，研究者“找到了石頭剪刀布的制勝策略”。

自然而然地，很多網友的反應是：“這還需要你研究？”

網友評論截圖。圖片來源：鳳凰網

但是隻需掃一眼就會發現，研究者不幸又被標題黨坑了。他們尋找的不是怎樣玩贏剪子包袱錘，而是通過人們在剪子包袱錘裏的行為來判斷哪一種理論更能預測人類——是傳統博弈論的納什均衡，還是演化博弈論。

因此，我打算從我熟悉的演化博弈論角度來越俎代庖，嘗試解讀這項研究為什麼不是在浪費錢。

為了幫助理解它，我會講四個故事。這四個故事從易到難，如果你已經對這個領域很熟悉了，可以跳過前面的幾個故事。

第一個故事：囚徒困境

一個有錢人被發現死於家中。警方抓獲了兩個犯罪嫌疑人並查獲了贓物，但兩人辯稱説他們只是小偷，進屋時那個人已經死了。沒有更多證據，調查陷入僵局。

於是警方把兩人分開，分別對他們説：

如果你倆都不認罪，我只能判你盜竊，一年了事；如果你招了他沒招，你算作立功，不用坐牢，而他得十五年。如果如果他招了你沒招，那反過來。但如果他和你都認了，謀殺罪每人十年。

嫌疑人X心想：如果Y不招，那麼我也不招的話會判一年，我招了無罪釋放。招了更划算。

而如果Y招了，那我不招的話十五年，招了只有十年。還是招了更划算。

顯然我應該招啊。

而嫌疑人Y當然也是這麼想的。結果，兩人都判了十年。任何一人改策略都只會讓自己處境更糟，這便是一個納什均衡。

可是，如果從整體上看，最好的結果顯然是兩人都不招，各判一年。雙方都是理性考慮謀求自己的最大利益，結果卻是兩人都遭遇了壞場景；無論是整體最好場景（各判一年）還是個人最好場景（直接釋放）都不可能發生。這就是為何囚徒困境是個“困境”。每個人都很精明，最後怎麼弄了這麼個爛攤子？

囚徒困境示意圖（或者，“收益矩陣”）。圖片來源：Encyclopaedia Britannica

按照囚徒困境術語，不招的行為算作“合作”（和你的獄友合作，不是和警方合作），而招認的行為算作“背叛”。雙方都合作最好，雙方都背叛則兩敗俱傷。按照這個故事，合作根本不可能出現啊。

現實中類似囚徒困境的場景常常出現。但是，更多的結局似乎是合作，而不是背叛。為什麼？

可能的原因是，困境不止這一次。

第二個故事：重複囚徒博弈

如果嫌疑人X和Y是陌生人，那麼兩人的下場都是十年。但是他們也許是兩肋插刀的好哥們，或者有血親，或者屬於同一個組織——總而言之，用博弈論的術語，他們以前也許打過交道，將來還很可能繼續打交道。這時，“合作”就不是什麼難以想象的事情了吧。

因此，一位名叫羅伯特·阿克斯羅德的政治學家在上世紀80年代初做了一個名垂青史的實驗。他在計算機裏擺了一場錦標賽，有很多名虛擬的參賽選手，雙方捉對廝殺——哦不，是捉對進行重複囚徒博弈。按照博弈的結果記分，你背叛他合作，則你得5分他得0分，雙方都合作各得3分，雙方都背叛各得1分。

然後，他向全世界徵集策略，每一個得到的策略變成一個參賽選手。提交的策略共有14個，來自經濟學、社會學、政治學和數學等等領域，再加上一個“完全隨機”的對照策略，共15“人”進行比賽。這裏面有些策略極其複雜極其精妙，比如有一個策略用馬爾科夫過程為對方的行為建立模型，然後用貝葉斯推斷最好的選擇。

但是，最後得分最高的竟然是所有提交策略裏最簡單的一個——“一報還一報”（TFT, tit for tat）。這個策略一共只有兩條規則：（1）第一步先合作，（2）從第二步開始，對方上一輪出的是什麼，我就出什麼。提交這個策略的是維也納的安納託·拉伯波特，他寫這個策略只用了4行BASIC代碼。

阿克斯羅德發表了錦標賽的分析結果，並邀請大家吸取經驗教訓提交新一輪策略——這次他獲得了62個策略，不但有上面提到的領域，還包括了演化生物學、物理學和計算科學等新學科。只有一個人厚顏無恥地原樣提交了上次的衞冕冠軍，那就是拉伯波特本人。你猜對了。他又一次獲得了勝利。

TFT這個“報仇者”成功的秘訣並不複雜。阿克斯羅德説，它有三個要素：它第一輪總是合作，先表示善意；它會懲罰背叛者；如果對方改過自新，它也不會咬住不放。

但是甘地説過：“以眼還眼，舉世皆盲。”現實中總會因為各種原因結下仇怨，但我們也沒有從此冤冤相報何時了。這又是為什麼？

可能是因為，現實本來也和阿克斯羅德的模型有些重大差別。

第三個故事：有突變和自然選擇的重複囚徒博弈

（1）自然發現了寬恕

阿克斯羅德錦標賽有兩個重大缺陷。

其一，雙方的行為都是完美的，沒有誤會，沒有失誤，哪怕不知道對方想什麼，至少知道對方做了什麼。但現實裏多少悲劇源於雙方一開始的誤會啊！這個重要因素顯然不該忽略。

其二，每一個策略的“環境”都是武斷決定的。一個策略能否成功，和它身邊別的策略如何有很大的關係。假如羣體裏全都是永遠背叛者，那麼報仇者完全佔不到任何便宜。而阿克斯羅德錦標賽裏的參賽選手都是人為提交的，這可不能説是有代表性的樣本。

因此，在阿克斯羅德實驗的基礎上，馬丁·諾瓦克制定了一輪新的錦標賽：引入了自然選擇。

他不再邀請人類專家設計策略，而是規定了一個大小合適的策略空間，允許策略在裏面進行“繁殖”和“突變”。每一輪得分高的策略後代多，得分低的沒有後代甚至自己都消失掉，但每個後代的策略也都和自己有十分微小的差異。此外，每次行為都有一定的“誤會”概率——本來我應該合作，但實際出手的卻是背叛。

一開始，故事的發展和上面一樣。起始的一團糟很快被誰都不信任、每一局都背叛的“背叛者”橫掃，但其中很快又出現了一小團一報還一報的“報仇者”。然後報仇者有很大的概率靠自己內部合作，反過來推倒背叛者。

但是現在故事不會到此結束了。因為有誤會。

報仇者很擅長對付壞人。但是如果對方不是壞人，而是犯了錯誤的好人呢？報仇者太記仇，不會放過這一點，如果對方也是報仇者，那相互合作立刻會變成相互背叛，就要陷入冤冤相報何時了的永遠循環之中了。

這時，突變出現了“寬恕者”。它的策略學名叫“慷慨的一報還一報”（GTFT）。它的特點是，即使對方出了背叛，下一輪也有一定的概率選擇合作，這樣就可以挽救陷入無窮背叛的可能。在論文裏，諾瓦克驕傲地宣佈：“自然選擇發現了寬恕”。

顯然，寬恕存在的前提是周圍有足夠多的好人（報仇者或者其他寬恕者）。如果周圍都是壞蛋（背叛者），你的寬恕只會被別人利用。

可好人太多了，又會有另一個問題。

（2）歷史的循環

如果周圍都是好人，大家其樂融融，那麼最好別壞了人家心情，乾脆做個濫好人得了！不管怎麼樣我都永遠合作。這比報仇者和寬恕者對誤會的忍受能力更強，寬恕者還有一定概率不原諒，濫好人則是永遠原諒，立刻拉回合作的“正軌”，所以它的得分更高。這整個羣體會逐漸變成都是濫好人——

但是，壞人從未遠去。羣體裏永遠會因為突變而出現新的壞人。而一羣只知道合作的濫好人，面對壞蛋那就是白花花的肥肉啊。很快無比成功的壞人會佔據羣體的大部分。

於是，一切重新開始。

這個壞人->報仇者->寬恕者->濫好人->回到壞人的循環是極其普遍的，而且它的普遍不止存在於博弈論模型裏——好人合作打敗了壞人，多年以後好人放鬆了警惕、壞人於是東山再起，這個敍事模型在各種故事傳説裏都十分普遍。至於這能否作為現實人類歷史上戰爭和平循環的抽象表述，那就見仁見智了。

（3）打破輪迴？

那麼，我們註定只能面對這個無盡循環了嗎？並非如此。諾瓦克的初代模型裏，每個策略只能考慮上一輪對方出了什麼。如果它不但考慮了對方，還考慮了自己呢？如果它關注的不是對方的策略，而是策略帶來的結果呢？

在改進之後的模型裏，意外出現了一個新的穩定策略：“輸則改之，贏則加勉”（WSLS, win-stay, lose-shift）。

這策略很簡單。如果我上一輪佔了便宜（雙方都合作，或者他合作了我背叛），那這一輪我繼續上輪策略。如果我上一輪吃了虧（雙方都背叛，或者我合作了他背叛），那這一輪我就換一種策略。換言之，這是一種“反思”型。

當兩個反思者相遇，它們大部分時間都合作。萬一遭遇了噪音，那麼下一輪雙方都背叛；再下一輪雙方又合作了。糾錯延遲只有1回合。這一點比寬恕者更強，只比濫好人弱一點點。

但反思者不怕濫好人。和濫好人打交道，開始雙方都合作，但是早晚要出現誤會導致反思者背叛，接下來……反思者發現濫好人不懂得報復。於是以後每一輪都是反思者背叛、濫好人合作，沒有分辨力的後者遭到慘無人道的剝削而退出遊戲。這樣一個反思者組成的社會不會隨着時間推移而“放鬆警惕”變成濫好人，當然也就不會遭受壞蛋的後續必然入侵。

等一下，這“反思”策略——不就是報道里説的，石頭剪刀布的制勝策略？

沒錯，石頭剪刀布不是囚徒困境。但是，故事還沒完。

第四個故事：關於人類

諾瓦克的本行可以算作是演化生物學家。他們關心的，是在一個自然選擇的框架下，合作何以可能。這個框架認為，雖然動物的智力各不相同，但自然選擇會將策略植入它們的大腦中。好的策略自然能流傳，哪怕動物本身不理解這個策略為何好、甚至不知道自己正在執行一個策略。自然選擇只在乎結果。

而人和人的心智，也是自然選擇的產物。如果他們的研究能部分解釋動物界的博弈策略，恐怕也可以部分應用到人身上。

演化心理學有個很重要的假設，就是人的思維方式不是“全功能通用計算”，不是一個程序處理所有環境。人腦子是有“應用模塊”的。當你需要做緊急決策、或者做不太重要的決策時，你往往會調用你“第一反應”的那個應用模塊，而不是冷靜分析局勢、為具體情境開發一個最佳方案——你沒這時間精力，很多時候也不值得。“今人乍見孺子將入於井，皆有怵惕惻隱之心。”你需要計算一下這孩子和我是什麼關係、我多管閒事會不會耽誤我自己的工作、孩子的父母會不會報答我嗎？不需要。你調用的感情函數已經幫你處理完了，要做的只是喊出聲或者跑過去。

如果一個人遇到任何事情都是靠第一反應，我們可能會説他是“感情用事”。但是沒有人能完全拋棄感情。的確，事後看來你這樣做出的常常不是最好決策——但是構想一個最好決策也是有代價的啊！這顯然不是經濟學上那種買個蘋果也要花十分鐘畫效用曲線的“理性人”，但你似乎也不能説這就不“理性”。

而既緊急又不重要的決策，還有比剪子包袱錘更好的例子嗎？

所以，從演化博弈論角度來看的話，這個研究並不是真的為了尋找怎麼玩剪子包袱錘的辦法，而是實驗證明了，在我們面對重複博弈時，我們的腦子的內置應用果然像諾瓦克他們模型做出來的那樣，有“反思”的傾向；哪怕這博弈只是剪子包袱錘而不涉及囚徒困境。我們沒有像一個理性經濟人那樣計算出剪子包袱錘的納什均衡是等概率隨機出三種手勢之一，而是受到我們“本能”的影響——演化留給我們的那個應用模塊，這模塊也許就是在重複囚徒困境的環境下誕生的。

當然，現在我們既然知道了人的大腦有此傾向，我們就可以針對它設計一套剋制策略（而理性人的納什均衡就不怕任何剋制策略）。我們能意識到自己的“本能”在特定場合下的缺陷，並主動地克服它，這是我們比大部分別的動物厲害的地方。

這很牛逼好嗎。這是觸及人類思維本質的東西好嗎。雖然也許不如阿克斯羅德和諾瓦克那麼牛逼但也非常厲害了好嗎。

當然，真正的原論文還要更復雜，涉及的層面也更多，而對於囚徒困境的研究也遠不止這裏討論的那些。但是我想，這已經足以證明這項研究的意義。不要被標題黨欺騙了，如果標題能説明一切，還需要正文幹什麼呢。