獨家譯文丨與菲利普·泰洛克對話:如何提升我們的預測能力_風聞
云猜预测家-“超级预测者”的资讯站和训练营。2019-12-23 13:48
首發於:超級預測
內容主要由泰洛克於2015年接受scientificamerican網站採訪的相關稿件整理而成
原創翻譯稿件,歡迎交流轉載(轉載請註明**)**

菲利普·泰洛克(Philip Tetlock)
加拿大裔美國政治學家,目前是賓夕法尼亞大學安納伯格大學教授,曾在沃頓商學院任教,是《超預測 :預見未來的藝術和科學》以及《狐狸與刺蝟:專家的政治判斷》的作者 。2011年,菲利普與芭芭拉·米勒(Barbara Mellers)合作推出了“精準預測項目(The Good Judgment Project)”,該項目在於確定是否有些人天生比其他人更擅長預測,以及這一預測的準確性能否通過訓練來提高。

泰洛克通過舉辦“預測錦標賽”來測試人們對複雜事件的預測能力。在他看來,這樣的研究可以“加深我們對如何生成現實的概率估計的理解,從而降低導致2003年伊拉克戰爭的災難性情報錯誤的可能性。”
我一直在努力研究社會科學,甚至認為“社會科學”是一種自相矛盾的説法。然而我意識到,社會科學具有巨大的潛力,尤其是當它把“嚴格的經驗主義和對絕對答案的抵制”結合起來的時候。
泰洛克的工作便具有這樣的品質,它解決了一個基本問題:社會事件的可預測性如何?他早期的研究評估了專家預測選舉、經濟崩潰和戰爭等事件的能力,並強調這一預測的困難性。例如,請看我如何在一篇專欄文章中引用他的觀點,進而討論公眾是否應該聽從專家們的判斷。
泰洛克與記者丹·加德納(Dan Gardner)合著的新書《超預測:預見未來的藝術和科學》則樂觀得多。這本書已經收到了來自《經濟學人》、《華爾街日報》、前財政部長羅伯特·魯賓(Robert Rubin)、心理學家史蒂文·平克(Steven Pinker)以及諾貝爾獎得主丹尼爾·卡尼曼(Daniel Kahneman)等人的好評。
**採訪者:**你在2005年的《狐狸與刺蝟:專家的政治判斷》一書中展示了預測社會現象有多麼困難,你也因此而聞名。然而,你的新書卻對準確預測的可能性變得更為樂觀了。你要收回自己在第一本書裏面説過的某些話嗎?
**泰洛克:**不需要。在我看來,這些矛盾與其説是“真實存在”的,不如説是“顯而易見”的。存在兩大地緣政治預測數據集,其中一個與《專家的政治判斷》有關,總結了1985年至2002年的預測數據;另一個與GJP (Good Judgment Project,“精準預測項目”)有關,是在2011年至2015年進行的IARPA(Intelligence Advanced Research Projects Activity,高級情報研究計劃署)預測錦標賽。
當然,它們有重要的相似之處。兩場預測錦標賽都提出了有關可能的未來的問題,這些問題都得到了詳細的説明,足以通過“千里眼”的測試。它們都要求預測者依照概率進行判斷。
但它們之間也存在着巨大的差異。這些差異解釋了不同的結果,以及闡釋的重點。維爾納·海森堡(Werner Heisenberg,德國物理學家,量子力學創始人之一)説過:“我們瞭解自然,是因為它成為了我們的問題。”無論如何,這條真理在預測錦標賽中肯定是正確的。
所有這些差異的累積效應是:預測者在後期項目中比在前期項目中有更多的機會和動機脱穎而出。
思索一下這些不同之處:
第一:早期項目中最短的問題(需要預測者們關注一年左右)比後期項目中最長的問題要長(絕大多數的問題需要預測者們關注數月,但不到一年);
第二:早期項目中的預測者們希望匿名,而後期項目的預測者們則希望自己出現在排行榜上,並得到認可;
第三:早期項目的預測者們很少有機會更新他們的觀念,而後期項目的預測們者則被被強烈鼓勵儘可能多地更新他們的概率估計,只要他們覺得消息是有根據的。
換句話説,IARPA預測錦標賽更公開的競爭性質迫使人們比平時更為開放、更為狡猾(比EPJ錦標賽的人更為狡猾),因為它們拔高了由閉塞思想帶來的聲譽性風險。
我想,這就是為什麼那些既讀過《專家的政治判斷》,又讀過《超預測》的人,會認為後者更為樂觀:比起詛咒黑暗,更多地是在點燃蠟燭。這大概是一個相當公平的評估。在內心深處,我認為這兩本書是互補而非矛盾的。

**採訪者:**你已經發現,某些人擁有使他們成為“超級預測者”的特質,他們在預測社會事件方面比普通人出色得多。這些特徵可以被自動化或者説,被量化嗎?
**泰洛克:**我們在書中描述了一次與WATSON的創造者大衞·費魯奇(David Ferrucci)討論這個問題的機會。他同意這個看法,例如,WATSON可以毫不費力地回答這樣一個問題:“在過去的五年裏,哪兩位俄羅斯領導人互換了工作?”但費魯奇指出,要回答“這兩位俄羅斯領導人會在未來五年裏再次交換工作嗎?”這樣的問題就完全是另一回事了。超級預測者們會發現第二個問題相當簡單,但當今地球上卻沒有任何人工智能系統能夠以令人信服的方式在這個問題上發表意見。為什麼第二個問題比第一個困難得多?因為回答第二個問題需要一個複雜的因果模型來解釋俄羅斯的政治體系、涉及的人物以及他們可能面臨的不斷演變的威脅和機遇。這不僅僅是去掃描一個龐大的數據庫,然後對最可信的貝葉斯式的估算答案進行三角測量的問題——我在“不僅僅”上面加上了一個龐大的引號,因為我不想貶低WATSON的非凡成就。
(注:WASTON是能夠使用自然語言來回答問題的人工智能系統,由IBM公司的首席研究員費魯奇所領導的DeepQA計劃小組開發,它的名字來自該公司的創始人托馬斯·沃森。2011年,WATSON通過參加綜藝節目《危險邊緣》來測試它其性能,這也是該節目有史以來第一次讓人與機器進行對決)

**採訪者:**你是否相信大數據的力量能夠徹底改變社會科學?社會科學會像物理學那般精確和嚴謹嗎?
**泰洛克:**我不確定“革命性”的社會科學能否實現,但是大數據顯然可以回答以前無法回答的許多問題。我們現在擁有數量可觀的人際關係(例如Facebook)的數據庫、搜索行為(例如Google)的數據庫以及消費行為(似乎無處不在)的數據庫。再説了,公司經常對我們所有人做的一些事情,會被大學的人類研究對象審查委員歸類為不道德的行為。這要麼是大學審查委員會過於敏感,要麼是大數據公司過於麻木。我覺得是兩者兼而有之。

**採訪者:**正如馬克思對歷史的影響所證明的那樣,社會理論和預測可以對社會產生巨大的影響。這種反饋因素是否增加了社會預測的難度?又是否可以構建將此因素考慮在內的模型?
**泰洛克:**我同意“自我實現預言”和“自我否定預言”確實“增加了社會預測的難度”。這些影響很難測量和建模,但並非不可能。例如,在最近的預測錦標賽中,提出的許多問題都是以這種形式出現的條件型預測:如果美國政府(或其他實體)做了X或Y,那麼結果Z的可能性有多大?當然,只有沿着條件的一個分支(決策實體所包含的選項)才有可能去評估預測的實證準確性。另一個分支成為反事實歷史的一部分(我們從未有機會去觀察,假如我們選擇了另一條路會發生些什麼)。
(注:“自我實現預言”:因為你相信它會成真,所以它成真了;“自我否定預言”:有些事一旦你相信它是真的,或是期望它發生,它便不會發生或更不可能發生)
然而,有人可能會説,預測錦標賽確實會間接地揭示出一些關於反事實歷史判斷的準確性。畢竟,你更相信誰對可能發生事情的判斷呢?是那些在現實生活中準確的人?還是那些不準確的人?
有些讀者還會想知道,為什麼我們需要去關心如何構建間接指標,以確定誰更有可能在反事實世界中得到更為正確的判斷。然而,事實證明,我們對這些反事實世界中發生事情所做出的假設,構成了我們從歷史中吸取所有因果教訓的基礎。如果你認為2003年的伊拉克戰爭是一個錯誤,那就意味着你相信,在美國沒有發動那次入侵、薩達姆·侯賽因(Saddam Hussein)也許仍然掌權的反事實世界裏,事情本可以變得更好。不要忘了:即使你的反事實信念被廣泛認同,它仍然是一個反事實的信念,而不是一個事實。
**採訪者:**我進行了十幾年的調查顯示,90%的美國人相信戰爭永遠無法被根除。我擔心這種悲觀的信念會自我實現。你能對這種特定的可能性和更普遍的自我實現預言問題發表下評論嗎?

**泰洛克:**這個問題對我來説太大了,但我還是要大膽地説幾句。對“國家”的經典定義是,一個組織聲稱對某一特定領土上的武力使用享有壟斷權。只要世界被劃分為競爭性的民族國家,而每個民族國家都聲稱自己便是法律;只要國際體系是“無政府主義”的(沒有一個世界性政府擁有有效的執行權力),就有可能發生戰爭。但擁有核武器的國家,對於哪怕只是威脅要使用核武器的行為也持有非常謹慎的態度,這讓我內心的樂觀主義者為之振奮(迄今為止,就連朝鮮也只是在叫喚,並沒有真的去咬人)。有趣的是,成熟的民主國家很少互相爭鬥。
我給出了一個相當囉嗦的回答。這個問題,我不知道。我認為這個星球上沒人知道。
**採訪者:**你在《超預測:預見未來的藝術和科學》一書中描述的研究是由國防部資助的。你對接受軍事資金有什麼顧慮嗎?更普遍地來説,你是否關注美國研究人員對軍事資金的依賴性這一問題?
**泰洛克:**IARPA(Intelligence Advanced Research Projects Activity,高級情報研究計劃署)沒有限制我們發佈信息的權限,項目也沒有涉及到機密信息。在這個意義上來説,即便我們得到的是國家科學基金會(National Science Foundation)的支持,我們得到的也是相同程度的自由。順便説一句,高級情報研究計劃署是美國情報機構的一部分,而不是軍隊的一部分。但問題的關鍵不在此處。
我很難想象國家科學基金會決定贊助像預測錦標賽這樣跨學科的項目(它跨越了國家科學基金會的幾個領域:判斷和決策、社會心理學和個體差異心理學、統計學、經濟學、政治學等)。
我的看法是,預測錦標賽加深了我們對如何形成實際的概率估算的理解,從而降低導致2003年伊拉克戰爭那種災難性情報失誤的可能性(情報機構對這一可能性的評估過於自信:在伊拉克找到生產大規模殺傷性武器的積極計劃,而這一點在著名的“灌籃”言論中得到了最生動的體現)。只要我們的研究能降低未來發生此類錯誤的可能性,它就能輕而易舉地通過我的成本效益測試(注:cost-benefit test,或cost-benefit analysis,成本效益測試是一種系統方法,用於評估滿足企業交易替代方案的優勢和劣勢,成本效益測試用於確定選項,這些選項為人工,時間和成本等方面的利益提供最佳的實踐方法,它同樣也被定義為計算和比較利益與成本的系統性過程)。

**採訪者:**你相信自由意志嗎?原因何在?你的信念或懷疑對你的科學有什麼影響嗎?
**泰洛克:**這個問題有些超出我的能力範圍之外。如果自由意志是一種幻覺(我們有充分的理由假設這一點),那麼它真是個令人信服的幻覺——而且在現有的社會秩序中發揮着關鍵的作用(道德責任和問責制的重要基礎)。
**採訪者:**心理學和社會科學最近遭受了挫折,因為許多廣為人知的説法被證明是誇大或虛假的。這些領域可以做些什麼來恢復它們的聲譽?
**泰洛克:**預測比賽完全透明:資助機構每天在美國東部時間的上午9點收集所有提交的數據。沒有造假的餘地,比如聲稱你的概率估算比描述的更準確。我推薦這種調研模式。
更普遍地説,我認為“開放科學”這一項目的成果朝着恢復聲譽的方向邁出了良好的一步。還應該指出,我是上個月發表在《行為與腦科學》(Behavioral and Brain Sciences)雜誌上一篇文章的合著者,這篇文章為社會心理學和社會科學提供了更為多樣化的思想形態(這是一個制衡的論證)。但這是一個長線問題,需要很長的時間去進行梳理。
(注:“開放科學”是一項運動,它的目的在於使科學研究及其傳播能夠被全方位地接受)
**採訪者:**你對那些試圖預測化石燃料的消耗對人類福祉影響的研究人員和官員們有什麼建議嗎?
**泰洛克:**保持謙遜。
**採訪者:**你認為自己對人類的前景是樂觀的,還是悲觀的?
**泰洛克:**我會使用超預測中的術語:一個謹慎的樂觀主義者。