大數據無所不能嗎?來自小數據研究者的六點質疑_風聞
新传研读社-新传研读社官方账号-用有趣推倒学术的墙,让传播学得以传播。2020-05-17 15:06
寫在前面:
本期推送為你準備的是著名社交媒體研究者danah boyd和Kate Crawford撰寫的論文《大數據的關鍵問題:對於一個文化、技術與學術現象的挑戰》。在這篇論文中,兩位學者對大數據研究提出了六點質疑。當然,這並非是為了否定大數據研究的價值,而是希望對“大數據狂熱”進行更加冷靜的思考。截止今日,這篇論文的被引用量已經達到3493次,或許可以看做是社交媒體大數據研究領域的必讀文獻。在本期推送中,我們對這篇論文的核心內容進行摘譯,期待可以為你提供一些有價值的反思。

大數據時代已經來臨。計算機科學家、物理學家、經濟學家、數學家、社會學家……都被衝入大數據的海洋之中。社交媒體中的互動、健康報告、電話記錄、政府檔案等數字痕跡,都成為了學者們熱衷於追逐的研究素材。不過同時,一個重要的問題也浮現出來:大數據能否幫我們創造更大的公共價值?亦或者説,它只會成為窺探隱私和侵入式營銷的工具而已?
大數據是一個糟糕的學術名詞。在這個詞被提出時,它指的是一組需要通過超級計算機運行的數據。不過,時至今日,我們家庭的筆記本電腦也可以做這件事。實際上,大數據的意義並不在於數據量本身,而在於搜索、整合、對照大型數據的能力。
大數據是一種技術現象,同時也是文化現象。它迎合了人們“數據越大、智識水平越高”的信念。人們相信,大數據攜帶着真理、客觀和準確的光環,可以生產出我們從未企及的深度思考。另一方面,反烏托邦的觀點則擔心,大數據(big data)會成為一種新的老大哥(big brother),侵蝕人們的隱私空間、干擾公民行動的自由、增強國家權力。
如今,已經出現了不少對於大數據的研究。不過,我們仍舊有必要進行批判性的思考:何為大數據?誰有權力接近大數據?數據分析是怎樣進行的?目的是什麼?在這篇文章中,我們提供了有關大數據研究的六種反思,希望能在不同領域的研究者之間引發討論。
反思01
大數據改變了知識的定義
Big Data changes the definition of knowledge
20世紀初,亨利·福特(Henry Ford)發明了一種大規模生產的製造體系,並快速成為了技術進步的主導象徵。福特製(Fordism)意味着自動化和流水線。不過,它並不僅僅只是一系列新的工具。在某種程度上,20世紀正是被福特製所定義的:它創造了一種對於勞動(labor)的新理解、一種對人與工作關係的新理解,也是一種對於社會的新理解。
同樣,大數據也不僅僅是一種工具,它還代表了研究的計算轉向(computational turn)。正如福特改變了我們製造汽車的方式,大數據也改變了知識這一客體的面貌。拉圖爾提醒我們:改變工具,你就會改變整個既有的社會理論。
大數據讓我們以前所未有的廣度和深度來收集數據,這也在認識論方面產生了深刻影響。《連線》雜誌主編安德森認為,我們已經進入到了“拍字節時代”(The Petabyte Age)。讓我們忘記那些傳統的社會科學吧,不管是語言學還是社會學。誰才有資格解釋人類行為呢?答案是數據。只要擁有足夠的數據,數字就可以自己説話。
數據可以自己説話嗎?我們對此深表懷疑。安德森的觀點體現出大數據爭論中一種潛藏的傲慢。似乎大數據出現之後,其他方法就應該靠邊站。不過,也有研究者認為,大數據的問題恰恰在於,在洪流一般的信息背後,缺少哲學意義上的管控。
大數據有自己的侷限性。例如,Twitter和Facebook是大數據研究者經常訪問的網站,但它的搜索功能並不強大。因此,研究者更可能去關注那些正在發生和剛剛發生的數據,因為歷史數據幾乎不可能挖掘到。安德森問我們,科學是否可以向Google學習點什麼呢?不過,我到是想説,真正有價值的問題似乎是:大數據如何改變了學習的意義,這種新的知識系統究竟提供了哪些可能性,又具有哪些侷限呢?
思考02
大數據宣稱的客觀、準確是具有誤導性的
Claims to objectivity and accuracy are misleading
拉圖爾曾抱怨説:“數字!數字!數字!社會學如此痴迷於變成一種量化科學!”不過,社會學似乎從未做到這件事。如今,大數據提供給人文學科一種新機遇,來實現量化科學和客觀方法的夢想。它讓更多的社會空間可被量化。不過事實上,在我們看來,大數據方法仍舊是主觀的。
客觀性是科學哲學長久以來的焦點問題。科學方法試圖將自己從主觀領域移除,變成一個不帶感情色彩的程序。我們提出假設、驗證假設,最後獲得知識的增進。不過,所有研究者都無法逃離一個事實——我們需要解釋數據。按照Gitelman的説法,數據需要被想象,並且,每個研究領域或學科,都有自己想象數據的規範和標準。
在計算機科學家涉足社會科學時,我們傾向於認為他們的工作僅僅有關事實,與解釋毫無關係——畢竟,他們只想建立數學模型。不過,當研究者試圖去理解這些模型的意義時,解釋的過程就開始了。甚至,科學家們在決定研究設計時,他們也在解釋。例如,對於社交媒體數據,存在着“數據清理”(data cleaning)這一道程序。哪些變量和屬性要被保留?哪些要被刪除?這個過程內在便具有主觀性。
如果單純拒絕解釋,大數據還會讓我們產生幻想性的錯覺。例如,大數據研究經常會發現莫名其妙的相關性。一個有名的例子來自Leinweber,他發現標準普爾 500 指數基金和孟加拉的黃油生產量之間存在相關性。
思考03
數據越大,不一定數據越好
Bigger data are not always better data
社會科學家一直認為,數據收集和分析的系統性,保證了他們工作的縝密。不管是問卷調查還是實驗法,都會提供給其他研究者評估研究效度的途徑。我們不能僅僅因為大數據的體量巨大,就忽略了其中的方法問題。對於樣本的理解,反而變得更加重要。
因為Twitter的數據方便獲取,學者們經常使用它來驗證一些列的問題。雖然很多學者都明白,來自Twitter的數據存在天然的侷限性,不過,媒體報道並不在乎這一點,他們只會告訴讀者,這篇論文研究了上百萬“人”。要知道,Twitter並不代表所有人,Twitter用户和“人”之間也不能劃等號——有一些賬户是多人使用,有一些賬户是機器人在操縱,有些人甚至根本就不使用Twitter。
大數據並不意味着整體數據。如果不考慮到樣本本身的特質,數據的規模就毫無意義。例如,如果一個學者試圖理解Twitter廣播的話題頻率,但Twitter會自動隱藏那些有問題的內容(例如色情和垃圾信息),那麼,無論我們收集多大的數據,結論都是不準確的。遺憾的是,大數據研究者熱衷於在Twitter上收集數據,但卻很少有人提到,Twitter數據有嚴重的方法論爭議,也很少有人願意對自己的數據進行説明。
在社會科學的計算轉向過程中,我們更需要認識到“小數據”的價值。在任何數據層級上,都有可能產生研究洞見。某些時候,哪怕我們聚焦一個人,都有可能獲得卓越的發現。例如,Veinot 通過對於一位水電公司的巡查員的研究,試圖理解藍領工人的信息實踐(information practices)。她的研究更新了“信息實踐”這一學術名詞的定義。僅就她的發現而言,即便我們收集上百萬的Twitter賬户數據,也無法獲得。
**數據規模應該與研究問題匹配。**有些時候,小即是美。
思考04:
剔除語境的大數據會失去意義
Taken out of context, big data loses its meaning

隨着社交媒體的興起,研究者似乎非常熱衷於為用户描繪“社交圖譜”(social graph)。他們蜂擁到Twitter和Facebook之中,對用户之間的聯繫進行大數據研究,並聲稱可以描繪用户的社會網絡。不過,社交媒體中呈現的關係似乎與社會學家、人類學家自1930年以來考察的親緣網絡(kinship networks)並不相同。
在大數據研究中,常見的兩種社會網絡是**“節點網絡”(articulated networks)和“行為網絡”(behavioral networks)**。
所謂節點網絡,可以簡單理解為Facebook上的好友列表。不過,我選擇關注一個人,可能有不同的動機,比如TA是我的朋友、同事、熟人、明星、朋友的朋友、公眾人物,或者有意思的陌生人。所謂行為網絡,指的是通過技術抓取到的交流信息。這種交流的種類也很多,例如給一個人流言、在照片上tag一個人等等、給一個人發私信,等等。
節點網絡和行為網絡對研究者具有重要的價值,不過,它們並不能被等同於人際網絡(personal networks)。例如,研究者經常使用“連接強度”(tie strength)來理解個體關係的重要性。移動電話數據表明,人們給同事打電話的次數,要多於給自己配偶打電話的次數,我們難道能因此得出結論,同事比配偶的關係強度更高嗎?
忽略具體的交流語境,僅僅通過交流頻率或朋友列表示來測量關係強度,本身是有很大問題的。因為並非每一種(次)連接都是同質的。
思考****05
可獲得的數據並不一定就是道德的
Just because it is accessible
does not make it ethical
2006年,一個哈佛大學研究團隊收集了1700位大學生的Facebook賬號,希望研究他們的興趣和朋友關係的變化。這些經過匿名處理的數據被公佈出來,以供其他研究者使用。然而,人們卻發現不難從這些匿名數據中得知某些用户的真實身份。更大的問題甚至是:這些學生完全不知道,自己的數據正在被研究者進行收集和分析。
學者不得不面對一個問題:在社交媒體上,所謂的“公開”(public)數據,究竟該如何使用?如何處理其中的研究倫理問題?一部分人已經意識到問題的嚴重性,並呼籲平台對用户隱私進行更好的保護。事實上,任何有關人的數據有難免引發隱私爭議,濫用數據的危險究竟有多大,又是一件難以被量化的事。
自20世紀70年代以來,大學通過建立機構審查委員會(IRB)體系來保護被研究對象的權利。例如,“知情同意”被廣泛作為研究倫理的基本要求之一。不過,對於大數據而言,其中的倫理意涵仍舊十分模糊。**一個人在社交媒體上的廣播應該被納入到研究數據之中嗎?萬一TA的廣播以一種脱離語境的方式被解讀呢?對此,TA有知情權嗎?如果TA在研究中遭受到了傷害,誰來負責呢?大數據研究中的知情同意應該如何操作呢?**我們不能簡單地認為,我們可以獲得一項數據,就等同於可以收集和分析它們。
在大數據的研究中,我們還需要關注真相、控制與權力問題。研究者擁有工具和渠道,但社交媒體用户卻沒有。他們的廣播是在高度情景化的背景下生產的,也很可能不願意自己的信息被用在其他地方。很多人並不知道,算法正在收集、儲存他們的數據,以供未來使用;更多人甚至不知道,研究者會成為他們個人主頁的訪客。
大數據的研究者很少會承認,在“being in public”和“being public”之間存在着相當大的差別。
思考06:
大數據的使用限制創造了新的數字鴻溝
Limited access to Big Data
creates new digital divides
社會學家Homans曾説:“在所需的時間和金錢方面,社會科學研究已經非常昂貴了,並且每天還在漲價。”曾幾何時,收集數據是一件既費時間又費錢的事情,不過如今,似乎大數據的狂熱者們有理由相信,大數據提供了一種獲得大規模數據的簡便方法。
不過,我們要詢問的問題是:**誰可以擁有這些數據?在何種情境下擁有?有何限制?**正如Manovich所指出的:只有那些社交媒體公司才能擁有真正大規模的社交數據——尤其是那些交易數據。那些為Facebook或Google工作的研究者們,也可以獲得其他學者無法擁有的數據。一些公司完全不提供關於自己的任何數據,另一些公司則用這些數據賣錢。這就造成了一種不平等:那些有錢的、有合作關係的研究者,可以生產出完全不同的研究。而不擁有這些資源的研究者,既不能進行這些研究,也沒有機會去評估這些研究的方法論主張。
在接近權之外,還有技巧層面的問題。大數據研究排斥了那些不具有計算機背景的研究者,這並不是問題。關鍵問題在於,我們將大數據方法放在了至高無上的位置,這就建造起一種基於“誰能讀懂數據”的研究階級。相應的,傳統的社會科學研究者的價值可能會被低估。我們需要面臨的另一項挑戰是,如何才能培養出這樣的學生——既通曉社會理論,又熟練掌握算法和數據分析?
最後,我們還面臨着另一種風險。因為社交媒體公司沒有義務對研究者開放數據,因此,那些獲得大數據的研究者,就不太可能進行批判式的研究。因為一旦這樣做了,他們就會立刻被剝奪擁有數據的資格。我們必須對這種寒蟬效應加以警惕。
在研究界,大數據創造了大數據富人(Big Data rich)和大數據窮人(Big Data poor)。甚至Twitter的研究人員Jimmy Lin直接説,學術界最好離社交媒體遠一點,這樣我們能做得更好。這種劃分局內人和局外人的觀點可能會破壞學術共同體。
Manovich認為,大數據王國中有三個階層:那些製造數據的人、那些可以收集數據的人、和那些可以分析數據的人。我們知道,最後一類人的比重最低,也有用最多特權。同時,他們也是決定大數據使用規則的人。也許在學術界,對這種不平等的批判可能會被很快放棄,不過,我們必須保持考察和質疑。