談及數據,有時少即是多——《華爾街日報》
Josh Zumbrun
圖片示例:蓋蒂圖片社世界正朝着收集我們生活幾乎每個方面更多數據的方向發展。
這些數據通常提高了我們分析周圍世界的能力,但在某些情況下,更多的數據反而會讓我們對世界的決策和理解變得更糟,而不是更好。
這一見解是一個日益增長且有些反直覺的研究領域的焦點,該領域研究所有那些數據較少卻能帶來更好統計模型或更佳決策的情景。在實際用數據做決策時,往往是“少即是多”。
“在一個理想的世界裏,由一個理想的人或算法處理數據,更多的數據會更好,”華威大學戰略與決策教授傑爾克·登雷爾説,“然而,我們並不總是處於那樣的世界。”
“少即是多”這一關於決策的短語由德國心理學家格爾德·吉仁澤推廣,他的職業生涯圍繞着識別那些數據較少卻能帶來更好決策的情景。這些結論對人類決策者和算法都適用。
這一領域發現,通常少量的數據點非常有用,而隨着數據點的增加,它們的效用會逐漸降低。除非謹慎使用,否則它們可能會混淆情況,而不是改善它。
該領域最近的一篇論文問道:“為了預測誰會在特定工作中表現良好,僱主總是使用盡可能多的關於求職者的信息會更好嗎?”
密歇根大學羅斯商學院的作者費利佩·卡薩扎爾、戴安娜·朱-拉賈辛和邁克爾·詹森給出的答案是否定的。
他們的論文模擬了統計歧視問題,這一源自1970年代的經濟理論認為,歧視持續存在的原因之一是,以利潤最大化為唯一目標的公司會利用所有可用信息(如求職者數據)進行決策。招聘經理在追求這一目標時,可能會潛意識地利用種族或性別因素來做出最佳預測。
作者指出,與技能相比,種族和性別對工作表現的預測性較差。但這些特徵更易被觀察,可能導致招聘經理過度重視這些因素。在這種情況下,原本建議綜合兩類信息以獲得最佳預測的統計歧視理論反而適得其反。
研究表明人類決策很少100%理性,這促使人們越來越依賴試圖吸收儘可能多數據的算法系統。某些情況下,這些算法在消除情感偏見方面效果顯著;但另一些時候,它們會固化錯誤。數學家凱西·奧尼爾在《數學殺傷性武器》一書中列舉了無情感算法產生歧視性或無用結果的案例。
大量實例證明,更少的數據反而能帶來更好效果。1990年代初,吉仁澤博士對比了德國兩座大城市——一座擁有職業足球隊,另一座沒有。87%的情況下,擁有球隊的城市規模更大。依賴這個簡單技巧的人,比那些試圖回憶複雜城市細節的人更能準確判斷城市規模。事實證明,體育團隊與人口規模的相關性,遠超過人們可能瞭解的其他因素(如是否為州首府或位於主幹道)。
(這裏有一個美國版的例子:統計一個城市中職業橄欖球、棒球、籃球和冰球隊的數量。在50個最大城市的配對比較中,89%的情況下,擁有更多球隊的城市規模也更大。如果你需要猜測匹茲堡是否比納什維爾大,這是一個實用的小技巧。)
或者以一家公司為例,它試圖預測哪些客户仍然活躍——即有興趣並可能繼續從該公司購買產品——以及哪些客户對公司的產品失去了興趣。研究人員發現,[一個極其簡單的經驗法則](https://wuebben.net/members/markus/Home/Publications_files/wuebben wangenheim JM 2008 instant customer base analysis.pdf)——即客户是否在過去九個月內從公司購買過產品——比尖端的複雜模型更能預測客户的活躍度。
投資中的一個例子是1/N規則,該規則指出,如果你想購買12只股票,你應該在投資組合中為每隻股票分配1/12的份額。倫敦商學院的一個團隊將這種方法與14種使用大量數據試圖找到更優分配比例的模型進行了比較,結果發現這14種模型中沒有一種能勝過1/N規則。
當然,識別哪些數據點可以剔除並不總是那麼容易。在疫情早期,麻省理工學院取消了要求申請者提交SAT(或ACT)成績的規定。批評者長期以來一直認為,這些考試對學術成功的預測能力較差,並且對來自弱勢背景的人構成了障礙。
但兩年後,麻省理工學院在今年春天重新啓用了SAT考試。招生辦主任表示,麻省理工學院發現SAT在評估"這些羣體學生相對於其他考量因素時表現更優"。原因在於教育不平等會影響準學生準備和申請材料的所有方面,而不僅僅是應試能力。“事實證明,這項考試比擁有合適的課外活動、推薦信或高級課程更能公平評估,後者往往更有利於條件優越的學生。
雖然確定哪些數據應該捨棄並非易事,但隨着收集的生活數據不斷增長,這已成為重要的研究領域。
“我們展示的成果堪稱三贏,“恰薩爾博士説,“採用更簡單的決策流程不僅能提高預測準確性,還能增強公平性——因為你無需考慮種族等歧視性因素。簡潔、公平與準確三者之間存在一致性。”
聯繫作者喬什·祖姆布倫,郵箱:[email protected]
本文發表於2022年11月5日印刷版,標題為《數據取捨的藝術:少即是多》。