哈佛報告:中國網絡審查制度如何允許批評政府卻禁止羣體煽動-金加里、珍妮弗·潘、瑪格麗特·羅伯茨
【按】本文原載於《美國政治學評論》(American Political Science Review)2013年5月刊,題為《中國網絡審查制度如何允許批評政府卻禁言羣體煽動》(How Censorship in China Allows Government Criticism but Silences Collective Expression),作者為哈佛大學教授金加里(Gary King)和他的學生珍妮弗·潘(Jennifer Pan)與瑪格麗特·E·羅伯茨(Margaret E. Roberts)。該論文刊出後不久,觀察者網即組織翻譯。
通過對中國網絡審查制度的大規模、多來源數據分析,金加里教授等得出結論:中國領導層允許社交媒體發展,容忍對政府、政策、領導人的批評。中國網民在個體上是自由的,但在羣體活動上受到控制。我們意識到,世界各國政府處理同樣問題時會採用類似的手段,英國卡梅倫政府曾在騷亂期間對社交媒體進行管制,這是一個近期的例子。
在哈佛大學的教授等級中,最高級是“校級教授”(University Professor),哈佛大學目前僅設24名。政治學系金加里(Gary King)的頭銜是“阿爾伯特•韋瑟黑德三世校級教授”(Albert J. Weatherhead III University Professorship)。這一頭銜的上一任擁有者正是大名鼎鼎亨廷頓——美國政治學者、前哈佛大學政治學系教授亨廷頓(Samuel Huntington)。
觀察者網今日特刊出金加里教授領導撰寫的此文譯文(附錄部分略有刪節),供讀者借鑑:
雖然作者功力紮實,又具有重要的學術地位,但由於種種原因,與《外交政策》雜誌上此前刊登的《謠言共和國》相比,該論文在中美學術圈和媒體上引起的反響則顯得遲緩。《紐約時報》中文網專欄作家歐陽斌近期在哈佛大學就該論文對金加里教授進行了採訪。《環球時報》今日則刊發觀察者網專欄作家、復旦大學國際政治系講師沈逸文章《客觀研究中國網絡,摘下有色眼鏡》,評述了該論文在學術圈內的窘境。
觀察者網今日特刊出金加里教授領導撰寫的此文譯文(附錄部分有刪節),供讀者借鑑:
中國網絡審查制度如何允許批評政府卻禁止羣體煽動
**How Censorship in China Allows Government Criticism but Silences
Collective Expression**
譯者:朱新偉、王楊
中國網絡管理部門可能正在實施有史以來最廣泛的人類言論篩查行動,我們首次對這一行動大規模、多來源的分析。為此,我們專門設計了一套計算機系統。搶在中國政府發現、評估並審查(從互聯網刪除)他們視為不妥的內容之前,這套系統在1400個不同的社交媒體網站上定位、下載並分析數百萬的網貼。利用現代電腦文本分析方法,我們在85個主題範圍中,把特定時間內被過濾的網貼與未被審查的網貼的實質內容進行對比。我們發現,與通常的認識不同,那些對國家、領導人和政策進行消極甚至刻薄批評的網貼遭過濾的概率並不高。但是,自詡民意代表、煽動社會動員的言論,不論任何內容一概會被禁言。審查部門力圖限制任何羣體性事件,這明確暴露了政府的執政意圖。
摘要
中國政府有選擇地過濾中國網民言論,從其規模和複雜程度來説,這一工程史無前例。美國的社交媒體集於少數網站,而中國(社交媒體)則分佈於數以百計的地方站點。這意味着,很大一部分審查責任被下放給這些網站的管理方,如果他們違反政府審查守則,就有可能遭罰款或關閉。為了避免觸犯政府規則,每個網站都僱傭了專職審查員,最多的可達1000名。此外,在中央、省級和地方等不同級別,約2萬-5萬網警和網管辦(員工)、約25萬-30萬“五毛黨”都參與了這項艱鉅工程。中國的新聞自由規模在197個國家中與緬甸並列第187位(據2012年自由之家報告),中國的審查工作是迄今最大的。
在本文中我們發現,這一機制旨在限制中國人言論自由,同時是一個異常豐富的信息資源——它暴露了中國政府(自認的)利益、意圖和目標。這是學術和政策研究團體一直關注的話題。跟通常媒體零星報道的領導人的公開活動不同,網絡信息可以不間斷地獲得(對研究有利)。我們用該新信息發展新的理論,以解釋審查機制的總體目標,進而揭示中國領導層的一些最基本目標。對中國政府這些目標有多種多樣的猜測,但無論哪種假説都缺乏實證分析。所以該信息對於其他很多學術(和實際決策)用途都很有價值。
我們得出了一個核心的理論發現:與通常的研究和評論相反,審查機構的目的並非壓制批評國家或共產黨的言論。必須承認,審查覆蓋社交媒體,但我們發現,當中國人對政府或領導人提出尖刻批評時,網帖被過濾的幾率並沒有上升。另一方面,我們發現審查的目的是降低羣體性事件的可能性。只要羣體性運動已經或可能發生,有關部門就會及時刪除網貼。我們在此闡明上述觀點,認為它們對中國政治、比較政治學等很多研究領域會產生深遠影響。
在以下章節中,我們先對中國審查制度提出兩種假説。然後我們介紹獨特的數據源以及富有挑戰的收集數據過程。接下來,我們闡明分析方式,給出結果並總結。附錄包括編碼細節,中文文本自動分析方法,並指出審查行為預示了政府在互聯網之外的行動。
政府意圖以及審查目標
此前,尋找衡量政府意圖的指標
破譯中國領導人隱秘的意圖和目標曾是研究中國精英政治的焦點。西方學者曾採用克里姆林學或北京學(基於人事關係和官方報道的中國政策研究)作為其研究方略。隨着文化大革命和改革開放的到來,研究者可獲得越來越多的數據,而學者也將研究方向轉到信息更開放的領域。總體上,今天的中國研究依賴於官方數據、民意調查、地方官員訪談以及官員和政府的公開活動。
這些資源很適合回答其他重要的政治科學問題,但是在衡量政府意圖這個問題上,這些資源顯然是間接的、往往取樣過於稀疏且可疑。比如,官方數據公佈的“羣體性事件(mass incident)”數量,可能受政府利益考量影響,但我們只有將真實數字和政府數據對比才能發現這一點。同樣,抽樣調查或許有用,但政府顯對普通公民有所隱瞞。而且,即使受訪者擁有研究者想要的信息,他們也未必願透露。在直接訪談官員時,研究者恐怕要算一卦才能知道知情官員的真正想法。
(與研究政府行動相比)衡量政府的意圖更加困難。目前各種研究方式都只能蒐集到有限的信息,不足以得出明確的結論。因為中國政府不是鐵板一塊。其實,在很多情況下不同的政府部門、不同的領導或不同級別的政府工作目的千差萬別,甚至很難確定一個統一的意圖或動機,更不可能進行簡單的描述。我們也不能解決所有的問題,但是政府的審查行為中的偏好是一個很好的研究對象,會透露更多信息,我們可以藉此分析官員自己也未必明確的工作目的。
審查的邏輯
本研究的前提是網絡大大拓展了公共話語的空間。我們首先建立一個基於實證研究的理論,解釋政府為何要審查網絡言論,以及他們想通過這樣龐大的機制達到什麼目的。現有學者一般持有一個大而無當的結論——中國政府審查網貼是為了維持政權。而我們着更關心政府的具體行事方式——政府到底如何定義自己的目標,以及它採取了什麼行動來實現自己的目標。
為此,我們提出了兩個理論。這兩個理論各自反映了威脅中國政權的某個方面。
第一條是常見的(壓制)國家批評論,即假定中國領導層的行為目標是鎮壓異見者,控制指責中國政府、政策或領導的言論。結果是讓看得到的公眾言論對掌權者更有利。很多對國家的批評都被視為這一目標的控制對象,比如差勁的政府業績。
第二個理論是我們所説的潛在羣體性事件論,即審查目標是聯合起來集體表達意願的人。在民間人士的激勵下,他們有引發羣體性事件的可能。該觀點認為,羣體表達——很多人在社交媒體上就同一問題交流——與真實的羣體性事件相關。只要言論可能引發羣體性事件,就很可能會被審查。值得注意的是,這一理論並不關心網貼的內容,無論內容是批評還是歌頌國家,甚至根本不涉及國家政權。
“潛在羣體性事件”也可以在中國政府鮮明的表態中找到依據,即不受政府控制的羣體表達無異於派系私鬥,並最終會導致混亂和無序。比如,在共產黨建黨90週年前夕,新華社社論,稱西式議會民主將導致中國重蹈文革的動盪史。同樣地,2011年3月召開的第11屆全國人大四次會議上,全國人大委員長吳邦國稱,鑑於中國國情,中國將不會借鑑多黨輪流執政的體制。這樣做的目的,是為了避免中國“陷入內亂深淵”。
中國觀察家們常會注意到,中國政府對維穩異常重視,有強烈的意願通過約束社會關係限制羣體性事件。當前的中國政府遇到了大量爭端和羣體行動。清華大學社會學系教授孫立平稱,2010年,中國共發生了18000起羣體性事件。頻繁地羣體事件不可避免地對政府處理問題的方式和觀念產生影響。中國政府認為,對橫向溝通加以約束是合法且有效的保護人民的手段。
現在的學者無法通過實證研究區分前述兩種理論的不同。Marolt (2011) 寫道,當“批評政黨及其政策,或鼓動羣體性政治運動”時,網上的網貼會被查封。MacKinnon (2012)稱在温州高鐵事故中,互聯網服務商受命“跟蹤並審查批判性的網貼”Esarey和Xiao (2008) 發現中國博主採用(婉轉地)諷刺手法批評政府,以避免遭到鎮壓。Esarey 和 Xiao (2011) 寫道,共產黨領導人最害怕“有影響力的網民聯合對政府施壓,要求其改變政策,”但他們認為這種施壓的方式是對政府的批評。Shirk (2011)稱審查的目的是壓制政治反對派的動員,但她的例子表明批評的觀點來自於那些被壓迫的人。
街頭抗議這種羣體性事件經常被視為專制政權的喪鐘。東德、東歐以及最近的中東抗議都導致了政權更迭的革命。 很多中國學者都關注人們反抗的原因以及策略。中國政府似乎要不計代價阻止抗議——的確,羣體性事件的數量是地方官員考核標準之一。然而,最近的數個研究指出:專制政權可能會期待並歡迎潛在的小規模抗議活動。因為了解並處理羣眾的不滿會促進政權穩定。Chen (2012) 指出小規模、孤立的抗議是中國長期的傳統,也是政府期望的行為.
結論概述
上述兩個假説相互獨立——可能都對,也可能一對一錯或者全錯。但根據我們取得的數據,答案很明確:國家批評論是錯誤的,潛在羣體性事件論是正確的。我們的數據表明,中國的審查機制放任對中國政府、官員和政策的廣泛批評,審查首要針對的是限制可能引發羣體性事件的信息傳播,無論這種信息是煽動反政府,還是反對具體的政策,都會審查。如果網上發帖數量激增,且內容可能引發羣體性事件(如廣場抗議),那麼審查就會到來。此外,我們還考察了每個事件中的表態,發現在這些事件中,政府對支持和批評的觀點不加區分,一律刪除。這表明中國政府相信,為了維護自己的統治,壓制有可能引發羣體性事件的網貼比壓制批評更重要。
數據
我們在收集海量具體信息時遇到了巨大的挑戰,中國政府不希望任何人看到這些信息,因此會竭盡全力阻止別人獲取。下面我們我們將討論審查的種類,數據收集過程,該研究的侷限性,以及我們對數據做後續分析的方法。
審查的種類
中國審查社交媒體上上的網民意見至少有3種方式,最後一種是我們研究的重點。
首先是“防火長城”(一般縮寫GFW,方濱興主持建立)。該防火牆完全禁止某些網站在中國運營。這令很多國外的互聯網公司頭痛,也阻止了中國人通過這些網站與國外網民交流。但中國人可以用其他的網站,用相似的方式表達自己的觀點,防火牆對此無法干預。比如,facebook臉書在中國被禁,但人人網是相似的替代品;同樣地,新浪微博是人氣很旺的推特的克隆體。
第二種方式是“關鍵詞屏蔽”,它防止用户發佈含有被禁的詞或短語的文本。這對限制言論自由作用有限,因為網民發現自動程序的智商並不高。他們用類比,比喻,諷刺等方式繞過審查。漢語可以為此提供多種新穎的方法,比如替換漢字,可以用同音字或看上去相近的漢子(同形異義字)。比如“目田”,本意是“眼睛-田野”,但被魔獸世界玩家用來代指字形相近的“自由”。同音字方面,“hexie”這個音經常被寫成河蟹,意思是河裏的螃蟹,實際上指代“和諧”,即官方的“和諧社會”政策。
一旦跨過了前兩個障礙,文章就能(自由地)在網上發佈。審查者將閲讀並刪除那些不妥的文章。通過研究文獻、觀察者的記錄、與數個政府內部人士的談話以及對數據的彙總,我們幾乎可以斷定,內容過濾在很大程度上是人工完成的——審查者手動閲讀文章。自動程序似乎只是輔助。跟”防火長城”或關鍵詞屏蔽不同,手動審查不會被文字遊戲糊弄。因此,這也是最後也是最費力的審查方式,也是本文的研究重點。
資料收集
我們先收集社交媒體上的博客,至少在審查到來前,作者可以完整的表達他們的思想。
在很多國家,如美國,幾乎全部博客都集中在少數幾個大網站上(臉書、谷歌博客、Tumblr等);中國確實有新浪這樣的大網站,但還有很大一部分社交媒體資源分佈在無數的單個站點上,比如地方bbs論壇等。這種多元對數據的收集工作造成了邏輯上的挑戰。由於網址、軟件界面、地方審查官員、網絡可靠性、訪問速度、使用條款各不相同,審查模式也不同,能對我們的數據收集造成潛在妨礙的方式也多種多樣。幸運的是,中國獨特的社交媒體結構也為研究各地對羣體表達的監管提供了絕佳機會,因為大量的本地站點提供了豐富的信息, 這比在美國還要便利。
數據收集面臨的最複雜的挑戰是,趕在中國政府閲讀並刪除不妥的內容之前,定位、訪問並下載相關內容。此外,對每個帖子進行頻繁重訪以確認刪除的時間。還要在中國很多地方收集數據同時不會影響到我們研究的審查機制,研究也不會遭到制止。
我們能完成的原因是數據手機系統高度自動化,而中國審查系統涉及人工操作。我們龐大的工程(由於明顯原因將不會在此詳述)在全世界很多地方運行,包括中國內地。

最後,在2011年前半年,我們從1382箇中國網站上定位、訪問並下載了社交媒體網貼。中國社交媒體結構最顯著的特就是它有極長的(冪律狀的)尾巴(指中小型網站的原創內容)。圖1是各網站的樣本和中文標識(圖片a)以及代表該長尾的網帖數量餅狀圖(圖片b)。圖中可見,最大的網帖來源是新浪博客(佔總數的59%),百度嗨,華聲論壇,四月論壇和天涯。但尾巴還在一直(向更小的網站)延伸。
社交媒體網貼涵蓋的話題範圍太廣,以致於全面的隨機取樣策略很難對單一話題提供有價值信息。因此,我們採取了分層隨機抽樣設計的方法。我們先選取了85個單獨的話題範圍,並按照假定的政治敏感性分為高(如艾未未)、中(如計劃生育)、低(如流行網遊)三檔。通過回顧以前的研究、諮詢中國專家以及對當下事件進行研究,我們分別在這三檔中選取某些特定話題。附錄A是完整的清單。
然後,針對不同的每個話題範圍(用關鍵詞區分),我們收集6個月時間內所有相關的社交媒體網貼。我們檢查每個話題範圍的網貼,刪除垃圾郵件,再用輔助閲讀工具對內容進行研究。(Crosas et al. 2012; Grimmer and King 2011)我們一共收集了3674698篇網貼,其中隨機選出127283萬篇進行進一步分析。(我們在其他時間段裏重複這一過程,有時候會對某些話題範圍進行更深入的研究。總共收集並分析了11382221篇網貼。)所有這些來自中國站點的網貼都是用中文寫的,但不包來自括香港和台灣的文章。我們先閲讀每篇文章的內容,將其置於某個話題範圍的時間軸上,並重復訪問源網站以確定其是否被過濾。根據需要,我們將用其他特定的數據對該信息進行補充。
審查者們並不羞於公開自己的行為,因為我們發現可以很容易區分(有意的)審查和零星的斷電,或是短暫的超時錯誤。被審查的網頁清晰地包含這樣的字眼:“抱歉,指定的主題不存在,已被刪除或正在審核”,有時候還會留下有警警和察察(網警logo)的標誌。
儘管我們蒐集信息比審查者審帖快,但他們的效率也體現出了高度專業水平。為了説明這一點,我們隨機收集並分析了2011年9月27日上海地鐵相撞事件前後的網帖、2012年4月10日到12日薄熙來事件的網帖和有關谷開來的網帖,以此舉例。儘管我們蒐集信息比審查者審帖快,但他們的效率也體現出了高度專業水平。為了説明這一點,我們隨機收集並分析了2011年9月27日上海地鐵相撞事件前後的網帖、2012年4月10日到12日薄熙來事件的網帖和有關谷開來的網帖,以此舉例。

我們對上述三個話題範圍的網貼進行不間斷監控,一共監控9天。(其他範圍的審查遵循同樣的基本方式)圖2表示的是被審查的網貼數的直方圖。在三個事件中,大多數的內容過濾發生在原文發佈後的24小時之內,當然也有一小部分網貼到5天之後才被刪除。這體現了驚人的組織能力,它需要戰爭機器般的精確:不同政府級別、分管不同互聯網運營商的領導需要首先做出決斷(給出一致意見、直接命令或妥協方案),決定什麼內容需要被過濾;他們需要將該決定傳達給數十萬的個人;然後這支軍隊需要在大約24小時之內完成絕大多數審查工作。
正如埃德蒙(2012)指出,社交媒體上信息源的激增讓信息越來越難以控制,然而,中國政府竟然在全國範圍內克服了這一困難。鑑於很多人很難達成一致意見,而且不同的人執行指令很難達成同樣的效果(比如Hopkins and King 2010, Appendix B)我們認定政府對審查工作做出了巨大而專業的努力。我們發現了一些證據,表明這一龐大蕪雜的官僚體制中存在不同意見,比如不同級別的政府之間的不一致。但我們尚未對此進行細緻的研究。
研究的侷限性
如下所示,我們的方法很大程度上揭示了中國領導層的目標,但它忽略了網站的自我審查以及這些內容被我們看到之前已經發生的過濾;它也沒有對”防火長城”、關鍵詞屏蔽或搜索過濾的直接效果進行量化。我們也沒有研究現實中暴力的效果,如逮捕博主或進行威脅。儘管各級政府和官員都會對審查什麼、何時審查進行干預,但我們的數據有時候並不能讓我們對這些信息源加以區分。
我們的確無法判斷上述侷限性的後果,不過我們可以合理地推斷,其中最重要的應該是現實中的暴力、威脅以及由此導致的自我審查。儘管我們分析的社交媒體數據包含數百萬中國人的意見,涵蓋了極其廣泛的話題和演講行為,但那些從未被我們觀測到的話題(即網民不敢談到的話題)可能才是政府認為最要害(或最緊迫的)的部分。
最後,過去對互聯網行為的研究存在一個可靠的前提——網民的社會行為跟“現實世界”行為基本同步。但是,當前的網絡行為已經佔據了人類生活很重要的位置,因此今天社交媒體上觀察到的思想本身就非常重要——不論它能否很好地衡量非網絡自由和行為。但無論這個前提是否成立,我們都難以作出這樣的論斷:我們對中國社交媒體的研究可以用來説明中國的新聞自由或是其他信息傳遞問題。
分析策略
總體上看,大約有13%的網貼被過濾。如果將所有領域、所有的網貼彙總起來,這一數據隨着時間的推移變化不大,但它會隨着網貼數量和審查力度的變化產生巨大變化。我們發現,網貼的潛在政治敏感性和審查之間的關聯性非常低:在低檔和中檔敏感度事件中,審查率基本一致(分別是16%和17%),僅僅比高檔敏感度事件(24%)低一點。當然,單個數據的穩定性不意味着內涵的簡單。為了發現審查的深層規律,我們接下來將討論編碼規則、給出核心假設,探討中國政府可能的審查程序。
編碼規則
我們分5步進行樣本編碼。
首先,按分層隨機抽樣設置的關鍵詞,我們將社交媒體網貼分為85個話題範圍。儘管我們做了大量的檢查(通過大量人工閲讀並藉助現代電腦輔助閲讀技術)確保其準確性,我們的話題範圍裏難免(藉助任何機器或人工分類技術)存在一些歸類錯誤。我們採用了保守的方法,先做出結論,暫且忽略這一錯誤的影響。隨後,我們進行了反覆的篩查(用同樣的技術),確保我們不會錯過任何重要的信息。這種歸類錯誤可以看做是系統性錯誤,但迄今為止,所有數據(扣除錯誤後的數據)都依然支持我們的結論。
第二,眾所周知,幾乎所有話題範圍(和相關區域)的言論數量都是“陣發”的,即穩定的時間曲線常常因偶然事件而出現數量激增。這一規律僅僅有兩個例外——色情內容和對審查者自身的批評。如下所述——審查工作在數量爆發(volume burst)時期(即事件熱點時期)力度往往格外大。因此,我們對數量爆發期前後的數據進行了處理。我們將每個話題的數據蒐集範圍都確定為6個月時間序列中每天的數量,並採用迴歸方式計算數據,以確定在剩餘時間序列中的離散值(outlaying observations)。
通過這一過程,我們檢測的85個話題範圍中有67個出現過數量爆發,一共出現了87次。
第三,我們將每個事件歸為以下五類:每個類別都可能包含批評或不批評政府、領導人和政策的網貼。
1.潛在羣體性事件
“羣體性事件”定義:
兩個(含)以上的人,受到參與者而非官員(或官方代表)的鼓動、控制,追求特定目標的行為。我們的“潛在羣體性事件”原則上包括任何有可能引發羣體性事件的事件,但是為了保守起見,並確保編碼規則清楚明確且可以重複驗證,我們將增加3個歸類條件:a)作者參與了抗議活動或有組織的人羣;b)網貼與曾經組織或引發羣體性事件的個人有關;c)網貼與曾經引發抗議或羣體性事件的民族主義或民族主義情緒有關。
2.對審查者批評
“對審查者批評”定義:
對效命於政府或非政府實體的審查者(無論個人和公司)的批判。
3.色情內容
“色情”定義:
包含色情或明顯性方面內容的電影、網站、廣告、新聞。
4.政府政策
“政策”定義
政府聲明或政府活動報告,包括國內或對外政策。
5.其他新聞。
其他新聞是指對上述4類事件以外的事件的報告。
最後,我們進行了一項研究以驗證我們編碼規則的可靠性。
我們把上述規則給兩位熟悉中國政策的人看,要求他們對87個話題分別進行編碼(每個話題都曾導致中國網民的發帖量爆發),並將其歸入上述的5個範疇中。兩名編碼者獨立工作,各自對這些事件進行歸類。編碼結果證明,兩位編碼者的一致率是98.9%,即87個話題中的86個歸類都相同。唯一不同的話題是方濱興(”防火長城”的發明者)遭扔鞋事件。這一事件既導致對審查者的批評,在一定程度上也是羣體性事件,因為有好幾個人一起向方濱興扔鞋。我們最後決定將該事件作為批評審查者的例子,不過不管它怎麼編碼,都不會影響我們的結果。因為我們估計,無論它歸入哪一類,都會遭到審查。
核心假説
我們的核心假説如下:網貼數量爆發期間,政府會根據話題範圍,將所有討論潛在羣體性事件的網貼刪除。也就是説,審查者將不管這些網貼是否有羣體性事件的可能。這或許是因為執行精確鑑別指令的難度比較大。Kuran (1989)和Lohmann (2002)研究表明,正是有關羣體性事件事件的信息促進了羣體性事件的產生,因此,要想把這種信息和明確的對羣體性事件的號召區分開來,即使不是不可能,也是非常困難的。因此,我們假設審查者採用了更簡單的標準來判斷網貼是否誘發潛在羣體性事件。而且他們不會考慮網貼是否批評政府的(即支持政府的也一概不放過)。
審查者還試圖把全部刪除色情內容和批評審查者的內容。但不會刪除政府政策和其他新聞範疇內的網貼。
政府的運作程序
中國政府審查的確切運作程序當然無法觀測。但是我們約談了接近審查機構的人,以及內部人士,我們相信我們的編碼規則可以視作接近真實程序。(事實上,在文章的一個草稿公佈後,我們收到的反饋證實了我們的觀點)我們手動確定話題範圍,用關鍵詞對網貼進行歸類,並通過統計發帖數量的時間序列數據,自動甄別網貼數量爆發。某些情況下,對談論現實世界事件網貼的過濾可能發生在事件真正發生之前——因為審查者會被秘密告知某事將要發生(比如對某個異見分子的逮捕),而這件事可能引發羣體性事件。
在網貼數量爆發期間進行過濾,第一步的甄別工作幾乎全部需要人工完成,或許偶爾會輔以計算機程序,如算法識別特色詞組(statistically improbable phrases)。最後,審查者對單個網貼做出審查決定——根據我們的假説,要檢查它是否與某個特定事件有關——幾乎肯定是人工完成的,因為沒有哪個已知的計算機系統的精度能與中國審查工作的精確程度相比。審查者可能會先用關鍵詞搜索找到相關事件,但他們依然需要人工閲讀文章,再進行審查。比如,當審查者從網上的討論中找到增城事件的文章,他們可能採取了關鍵詞搜索的方式,但他們可能必須要閲讀全文,這樣才能將增城抗議和增城的其他信息區分開來,比如增城荔枝豐收。
結果
接下來我們介紹3個具體的測試以驗證我們的假説。這些測試基於:
1 網貼數量
2 引發每次數量爆發的事件性質
3 被審查的網貼的具體內容。
此外,附錄C(見文末)提供了一些證據,表明中國政府的審查行為自相矛盾地反映了中國政府的意圖。
網帖數量
假如審查的目標是禁止有可能引發羣體性事件的討論,那麼我們應該會看到,數量爆發期間會比別的時期有更多審查行動。我們會看到,某些事件爆發——有羣體性事件可能的——受到的審查級別會更高。
為了研究這一模式,我們引入了“審查強度”的概念,即數量爆發期內被審查(刪除)網貼的百分比減去數量爆發期外所有被審查(刪除)網貼的百分比。(基本比率在不同的話題範圍中變動很小,如下圖所示,沒有造成天花板或地板效應)。這可以證明中國政府網絡政策之嚴厲,因為在網貼數量爆發期間進行審查明顯更加困難,網帖數量更多,時間更緊迫,且沒人預先警告什麼時候會出事。
表3的a直方圖似乎支持我們的假説。結果表明,絕大多數數量爆發的審查強度集中在0附近,但有一條顯著的長尾(座標軸左側沒有相應的長尾,即很少有審查比率在重大事件期間下降的案例)。顯然數量爆發往往伴隨着審查強度的大幅提高,即使跟接下來的6個月相對比也是如此。

能引發數量爆發的事件的性質
我們發現,由羣體性事件,批評審查者和色情事件引發的數量爆發會遭到審查,但是由討論政府政策和其他新聞引發的發帖量增加則不會。
我們在下一節討論國家批評論。這裏,我們提出針對本次調查結果的三個結論。
首先來看圖3的B列,其審查強度的分佈與A列一樣均勻,並按時間類型顯示。結果很明顯:與羣體性事件、批評審查者和色情(分別是紅、橘紅、黃色)相關的事件基本都在座標系的右邊,表明審查強度很高,而關於政策和新聞的事件基本都在座標系的左邊(分別是藍、紫色)。羣體性事件的審查強度平均是27%,而政策和新聞的平均審查強度分別是1%和4%。[橫座標(刪除率)基本上數值很小,約為3-5%,上下波動幅度不高。]
第二,我們列出審查強度最高和最低的事件案例,在圖4用相同的顏色標註。羣體性事件可能性最高的事件包括內蒙古牧民被運煤車撞死事件、增城孕婦遭保安毆打引發民工騷亂事件、艾未未被捕、撫州徵地爆炸案。明顯的是,“羣體性事件可能性”最高的事件根本與政治無關:日本地震和核電廠事故發生後,浙江出現謠言,稱碘鹽可以抵禦核輻射,於是民眾搶購食鹽。這個謠言沒有科學依據,也和國家無關,但卻遭到了嚴格的審查;原因大概是政府認為在某些地區出現了羣體性的情緒失控。實際上,我們發現地方網站對碘鹽謠言審查要比全國性網站來得嚴格。[在圖4的兩個相關事件中,社交媒體的新聞和討論中經常會添加色情內容,以吸引眼球。]

與我們的“潛在羣體性事件防範論”結論一致的是,一些審查最嚴格的事件不是對國家政策的批評或討論,而是可能引發羣體聚集的地方性羣體表達自己的看法。一個例子是,温州的一個當地網站出現了一些網貼,聲援環保人士陳飛。陳飛力挺用於保護當地環境的環保彩票。雖然陳飛受到了中央政府的支持,但是,所有關於他的網貼都被當地網站刪除了,原因有可能是他過去組織過羣體性活動。2000年後,陳飛建立了綠色環保志願者協會,擁有超過400名註冊會員,創立了中國首個“無塑料袋村莊”,最終推動了關於使用塑料袋的立法程序。
另一個例子是關於江蘇沭陽兒童鉛中毒事件。相關的網絡網貼討論了天能集團的電池廠導致兒童健康狀況受污染的事情,醫院拒絕向受害兒童父母公佈檢測報告。2011年1月,沭陽村民在電池廠門前要求解釋。審查者絕不容許這類羣體性集結,無論它是支持政府或批評政府。
所有被標記為“可能發生羣體性活動”的事件中,事件內的審查比事件外的審查更為密集。另外,平均來看,這些事件比其他事件的審查率要高得多。這些事實與我們的分析一致,即,審查者會主動搜尋並刪除那些與“可能發生羣體性活動”事件有關的網貼。不過,我們想進一步分析審查的不同力度:雖然我們已經採取了定量分析,但顯然,“可能發生羣體性活動”中的某些事件要比另一些事件敏感性高得多。因此,通過分析個別事件,可以看出,審查程度低的事件,其發生羣體性活動的可能性也較低。
以下舉例分析。動畫電影《功夫熊貓2》上映時,關於電影種族歧視的抗議出現了言論的數量爆發,但這導致發生大規模抗議的可能性顯然極低。另一個例子是錢雲會事件,這位浙江農民帶領村民抗議當地政府徵地補償不公,後來被卡車壓死。錢雲會遭遇的這兩件事都發生在我們調查以前。在我們調查期間,錢雲會的遺屬為了爭取賠償又引發了一次熱點,但這一事件的網貼數量爆發更為集中、事件本身對無關人員的煽動性卻較低。
最後,我們給出三類事件更為詳細的一些例子,其中每一類事件都基於某一話題領域的隨機網貼。首先,圖5給出了4個例子,一開始都是審查力度很低,然後相關言論突然出現數量爆發,審查強度也就隨之增加。無論是刪帖的絕對數量,還是刪帖佔所有網貼的比例,都是非常高。4張圖表(還有其他例子,本文無法一一列舉)的結論很明顯:中國政府在言論數量爆發期會加倍投入審查。

我們進一步分析了(按照Grimmer and King 2011的分析方法)可能發生羣體性事件的言論數量爆發期間沒有被刪除的那些網貼,如圖5的a座標所示,紅色區域並沒有完全覆蓋灰色區域。這些未被刪除的網貼與事件沒有直接關係,但恰巧包含了事件話題的敏感詞。我們再次發現,審查者在增加審查強度時,操作非常精準,極少誤傷。自動分類不可能達到如此高的準確度。
第二,我們在表6中給出4個話題,這4個話題都至少導致1個話題數量爆發期,但沒有遭到審查。其中包括重大而富有爭議性、具有潛在煽動性的話題,計劃生育、教育改革、腐敗和電價調整,但均與地方性的示威遊行無關,所以,審查強度一直非常低。


最後,我們發現,幾乎所有的話題都呈現出圖5和圖6的趨勢。兩種模式如圖7所示。這些話題包括色情內容(座標a)和對審查者的批評(座標b)。這些話題的特點是,6個月內其審查強度始終很高,並且,沒有在數量爆發期增加審查強度。美國政客將色情內容視為挑戰國家的“道德操守”,中國領導層也將其視為腐蝕年輕人身心健康的產物,並且是社會不穩定因素之一;總之,必須對其進行審查。
更令人驚訝的是審查者的“不當行為”:他們允許中國人批評任何一位政治家,但不允許批評審查者自己;允許批評每一項政策,但不允許批評言論審查政策本身;允許批評每一個項目,但不允許批評他們自己的項目。就算是用中國自己的牽強理由來看,圖7所示的結果仍可稱得上是驚人之舉。
哪些要刪除,哪些無需刪除
我們的最後一項測試是比較刪除的網貼和未刪除的網貼的內容。“國家批評防範論”認為,批評政府的網貼都會被刪除,無論它有沒有引發羣體性事件的可能性。相反,“潛在羣體性事件防範論”認為,有關羣體性事件的網貼都會被刪除,無論它是批評或讚揚國家;而那些無關羣體性事件的網貼,無論對政府是褒是貶,都不會被刪除。
為了執行此次大規模測試,我們需要一種自動文本分析手段。因此,我們將Hopkins和King(2010)分析英語的方法應用到漢語文本。這個方法不需要機器翻譯、個別話題分類計算或鑑別每個話題的關鍵詞(當然,免不了會發生錯誤);其方案只需一小部分的中文文本。我們採用了一系列嚴格的測試,並獲得高度精確的結果——如同人工閲讀和分類一般。我們在附件B中描述這一方法,並列舉若干例子。
就我們的分析而言,我們將網貼內容分為3類:(1)批評政府(2)支持政府(3)與事件無關的報道或事實性的報道。不過,我們對每個類別中的網貼比例沒有興趣,對刪除的網貼和未刪除的網貼的比例也沒興趣——那是Hopkins和King的研究方法。我們的方法是,估計並比較每一個類別中被刪除的網貼的比例。因此,我們使用的貝葉斯方法(參見附件2),對Hopkins和King的方法進行改進。
我們首先分析特定的事件,然後從所有的事件中隨機抽取網貼。關於羣體性事件,我們精確選擇了艾未未被捕、內蒙古抗議、撫州拆遷爆炸事件。圖8的座標(a)呈現了每一個事件中刪除網貼的比例,其中,批評政府的用紅色表示,支持政府的用綠色表示;縱座標是95%置信區間。顯而易見,無論網貼支持或反對政府,刪除率都很高,平均是80%。雖然常識認為刪帖是為了過濾批評政府的聲音,但測試表明,批評政府的網貼的被刪概率並不比支持政府的網貼高。這支持了“羣體性事件防範論”結論,並與“國家批評論”相悖。

我們還從圖6中選取了三個主題,進行平行試驗。這三個主題都沒有導致羣體性活動的可能性:計劃生育、反腐政策和物價上漲的新聞。結論與我們的預期相符:無論支持或反對政府,相關網貼的刪除率都很低,平均約為10%。
為了檢驗以上結論的普遍有效性,我們從所有數量爆發的主題中隨機選取沒有羣體性活動可能性的網貼。圖9顯示的結論與圖8一致,羣體性活動可能性高的事件刪除率也高,無論網貼是支持還是反對政府,而新聞和政策性事件的網貼刪除率較低。同上,支持或反對政府的態度對刪除率影響不大,而與羣體性活動的關係則很大。

結論很清楚:如果網貼牽涉到羣體性活動的可能性,那就會被刪除;否則就不會被刪除。無論網貼支持或反對政府、領導人或政策,都與刪除率無關。
最後,我們列舉幾個中國社交媒體的網貼內容。首先,我們舉出兩個無關羣體性活動可能性的網貼,雖然網貼內容都批評了政府和領導人。例如,以下網貼直接進行了人身攻擊,點名當地政府:
這是一個漠視生命的市政府[陝西省榆林市]、一個官員橫行的市政府、一個沒有公正的市政府,一個低級趣味的市政府,一個包二奶的市政府,一個為錢不要臉的市政府,一個為個權不要人格的市政府,一個沒有血性的市政府,一個沒有道德底線的市政府,一個出爾反爾的市政府,一個忘恩負義的市政府,一個不要子孫後代的市政府,一個什麼怪事都出的市政府,一個什麼的市政府,只要你想到的就有……
另一位博主尖鋭地批評了中國的計劃生育政策,同樣未被刪除:
可以提倡人民自願節育,但讓人斷子絕孫的強制節育,搞30年已是忍辱負重,不能形成路徑依賴,將不得已的臨時性惡政無限延長……可以毫不誇張地講,計劃生育是農民最痛苦的暴政。雖説是“必要的惡”,卻是世界少有,遭到世界輿論的廣泛譴責,實在不該以此為豪。
最後,以下博文尖鋭批評中國共產黨背棄民主和憲政諾言,但也沒被刪除:
我一直將中國的近代史視為一場改良與革命的賽跑,在清末的大賽場上,最終革命跑到了頭,改良的一切設計,在武昌起義槍聲響起後成了廢紙。中共的民主憲政承諾,是抗戰結束前開出的遠期支票,超過了一個甲子仍未兑現。當今中國社會缺乏誠信,要從毛澤東開始問責。鄧小平在80年代提出的政治體制改革,之後被長期擱置……近年所謂“黨主立憲”之説,也是主流學者為維繫一黨執政地位所做的政治設計。
這些網貼既非特例,也不反常:我們的數據庫中還有幾千條負面網貼,包括所謂的敏感主題,例如一黨執政,並沒有瞞過審查體制。證據表明,審查者無意阻止這些網貼的出現。相反,他們注重刪除關於羣體性活動可能性的網貼,無論是否牽涉到中國領導人或政府的政策。
為了強調以上論點,我們給出兩個有關羣體性事件可能性的網貼,這兩個網貼都支持政府,但卻很快遭到刪除。在撫州爆炸事件中,政府刪除了這個網貼,雖然它明確譴責錢明奇,並褒揚政府在動遷過程中的工作:
爆炸案造成他本人和多名政府工作人員死亡的悲劇,即使錢明奇在微博裏所稱拆遷造成的個人損失是屬實的,我們也應譴責他的極端報復行為……政府在連續出台保護被拆遷者利益的政府法規,媒體也在為公平對待被拆遷者大聲疾呼,各地拆遷補償款上升速度,大多高於商品房售價上升速度,在不少地方,補償款已經足以改變一個家庭的命運。
另一個例子是下面這個被刪的網貼,它同樣支持政府。該帖指責當地領導冉建新涉嫌腐敗,而他在被警察監禁期間的死亡引發利川遊行:
湖北省巴東縣委宣傳部都在其官方網站發佈新聞通稿稱,冉建新在擔任利川市都亭辦事處常委書記、主任期間,利用職務之便,在徵地拆遷、工程發包等事項中為他人謀取利益,收受他人賄賂,涉嫌受賄犯罪。
結語
我們提供的新數據和新方法表明了中國網民、中國的言論審查機制以及中國政府關注的網絡內容各不相同,還揭示了政府壓制信息傳播的秘密機制,以及中國領導層的關注點、意圖和目標。
證據表明,中國的領導層允許社交媒體發展,允許對政府、政策、領導人的負面、正面批評。因此,政府的政策有時被職責為非常糟糕,領導人臉面無光,這和民主國家的民選政客並無二致;不過,他們似乎已經意識到,丟臉不會影響到他們的位子,只要不發生羣體性事件——政府以外的權力控制羣眾的行為。可以説,中國人在個體上是自由的,但羣體上是受控制的。
解釋中國政府這一策略的研究已有很多,我們在此提出一些初步性設想。首先,只要不發生羣體性事件,社交媒體就是獲取對中國政府和官員的意見的良好渠道。當然,必須考慮到公眾發表意見的成本越來越低,政府也越來越懂得如何滿足並緩和公眾的情緒。從這個角度來看,目前的模式或許是政府利用社交媒體掌握權力的最佳手段。例如,Dimitrov(2008)提出,人民如果不再抱怨政府,政府就會垮台;因為,這表明在人民心中,政府已經沒有了合法性。同樣,Egorov、Guriev、Sonin(2009)提出,缺少自然資源優勢的獨裁政府會允許媒體更為自由,以便增強其執政能力。引申開來講,這與我們的中國研究遙相呼應,即,容許批評可以增強政府的合法性,鞏固政權。Lorentzen(2012)提出了一種規範性模式,威權政府調和媒體自由與言論審查這兩種政策,在減少地方腐敗的同時,鞏固政權的穩定性。也許,研究規範性模式的學者可以吸收我們的經驗性結論,進一步發展他們的理論。
進一步説,本文的數據引申出研究中國政治、比較政治學的新方法和新思維。就中國研究而言,我們的方法反映了威權政府的彈性、中央-地方關係、次國家層面的政治、國際關係和中國的外交政策。
通過分析國家層面和地方層面不同的敏感話題,本文表明,在某些領域,地方政府可以獨立行事。另外,我們的分析明確地揭露了政府的意圖,展現出各級政府的意圖差異。我們分析了社交媒體和言論審查的實際內容,這有助於揭示中國的國際關係和外交政策,例如,民族主義的呈現是否會限制政府的外交活動?最後,中國的審查機制可以被視為一種建設性機構。Nathan(2003)將其視為威權政府彈性機制的一部分,或可反映中國共產黨的體制化和長期執政的秘訣。
就比較政治學而言,我們的工作可以直接展現國家能力、威權政府的長期執政和執政變化。最近關於阿拉伯之春中的互聯網和社交媒體的研究(Ada et al. 2012;Bellin 2012)質疑了這些技術組織羣體性活動和擴散地區信息的功能,反而強調這些技術創新對維持威權政府執政的積極作用。Edmond(2012)研究了信息資源(互聯網、社交媒體等)對政權的壞處,而如果政府擁有足夠的經濟能力,它就可以控制信息資源。互聯網和社交媒體的經濟規模目前在中國還不大,而中國政府將言論審查的責任下放到了地方上的互聯網經營商,因此,中國能夠繼續款擴張這一新興技術的經濟規模。中國是一個相對富裕、有彈性的威權國家,審查機制複雜、有效,它也許是全世界獨裁者的關注對象。
我們分析了中國審查機制的主要目標,揭示了中國網民的關注點、中國政府的意圖和目標。雖然我們只分析了不同時間段的85個話題,但這種分析還可以延伸到更廣泛的領域。在傳統媒體沒有提供任何線索的情況下,審查行為或可預示政府在線下的下一步行動,為政府政策和商業活動的學術研究和實踐提供啓發。
我們構建了計算機輔助文本分析法,有效分析了中文文本。這些方法還可推廣至其他領域。我們設想,我們的數據手機程序、文本分析手段、總體分析和經驗策略可以推廣至世界其他壓制言論自由的地域。
附錄C【附錄A羅列敏感詞列表、附錄B介紹計算方法,此處略——譯者注】
如果説審查行為是衡量政府意圖和意願的一種手段,那麼,考察審查行為就可以為預測政府行為提供一些線索。我們就此進行測試。不過,中國政府的大部分行為都是針對外部事件的評論或反應,都可以事先預測。困難的是那些無法預測的事例,我們在此挑出其中與羣體性活動可能性有關的事例進行研究。
我們本來沒有就此專門蒐集數據,但根據手頭的數據,仍可進行間接的驗證。我們採用了廣為流傳的數據控制手段(King and Zeng 2001)。首先,我們抽取與羣體性活動可能性有關的所有真實事例,然後剔除那些容易被預測的事例。於是,便剩下了兩個事件,這兩個事件都不能事先預測:2011年4月3日艾未未被捕,以及2011年6月25日與越南的南海爭端。我們分析這兩個事例,並證明,政府的反應可以從審查行為的數據中預測出來。另外,正當本文於2012年初收尾之際,中國發生了薄熙來事件,這一件事件被認為“是數十年來振動中國政壇的最大丑聞”(Branigan 2012),並將“困擾下一代中國領導人”(Economy 2012)。碰巧,我們的數據監控還沒結束。因此,這成為了我們研究的第三個事例。
接着,我們要確定審查行為能夠提前多久預測(突發)事件。時間間隔必須足夠長,以顯示審查行為的存在;但也不能太長,以防數據波動淹沒了審查者的干預跡象。我們選擇5天為合適的間隔,這不一定準確,但不影響我們此處的數據。因此,我們架設中國當局預先5天採取行動,並且在審查模式上可以體現出這一跡象。

在圖11的座標a中,我們來觀察艾未未被捕事件。縱座標是被刪除的網貼比例。灰色區域是從(我們假設的)採取行動的日期到艾未未真正被捕的日期。我們從新聞媒體中無法得知艾未未即將被捕。藍色線段是實際的審查力度,紅色線段是根據此前的數據推算出來的趨勢。4月3日紅線與藍線的差距是我們的粗略估計;如果政府沒有特別行動,實際的審查力度應該是將近10%;但最終的實際審查力度是預估值的兩倍。為了證明這不是偶然現象,我們選取了任意5天間隔,均沒有出現如上反常現象。
我們用這個方法再來驗證圖11座標b的南海事件。南海的石油勘探導致北京與河內關係持續緊張,審查率暴增。根據媒體報道,衝突一直持續,直到6月25日兩國突然達成和平協議。我們再度隨機採樣,證明這一反常現象絕非偶然。
最後,我們來看薄熙來事件。薄熙來的父親是中共八大元老之一。薄熙來被認為是2012年秋季召開的中共十八大的新一屆常委熱門人選。可是,他的政治生命卻突然終止。2012年2月6日,王立軍逃入成都的美領館。四天前,王立軍剛被薄熙來免職。王立軍揭發了薄熙來參與謀殺英國公民的秘密,然後,薄熙來被免職。由於事件反常地揭示了中共高層內部的分歧,我們專門來分析2月2日王立軍被薄熙來免職的事件。據稱,王立軍與薄熙來就海伍德之死發生了衝突,引發薄熙來採取行動。
我們的分析如圖11座標c所示,王立軍被免職以前的審查力度趨勢與實際的審查力度差距很大。王被免職以前,媒體沒有任何透露的消息。同樣,我們做了驗證測試,證明這不是偶然現象。
這三個事例都證明了我們的結論,但我們是事後分析,且只有這三個例子,所以,還需要對審查率和可預測性之間的做進一步研究。
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。