量化歷史與新史學 ——量化歷史研究的步驟和作為新史學的價值_風聞
diewisch-历史唯物观察者-2021-09-22 17:54
來源:《史學理論研究》2021年第1期 作者:林展 陳志武
**內容提要:**隨着歷史大數據時代的到來,大量歷史數據庫建成和向學界開放,歷史研究也面臨新的挑戰,即如何有效利用大規模的史料。量化歷史作為新史學的重要組成部分,是應對歷史大數據挑戰的重要方法之一。近年來,量化歷史在國際學術界發展較快,形成了較為完善的分析方法,本文以基於《新教倫理與資本主義精神》展開的量化歷史研究為例,詳細説明其研究步驟,分析其在應對歷史大數據的挑戰、識別歷史的長期影響、促進歷史學與其他社會科學的交流與對話等方面可能發揮的作用。
**關 鍵 詞:**量化歷史/新史學/歷史大數據
**基金項目:**本文是國家社會科學基金重大項目“清末民國社會調查數據庫建設”(項目編號:15ZDB041)的階段性成果。
**作者簡介:**林展,中國人民大學清史研究所講師;陳志武,香港大學經濟管理學院與亞洲環球研究所教授。
當代新史學的發展,引發了“史料之革命”,擴展了史料的範圍,形成了多元的史料體系,進而也引發了歷史資料的“大爆炸”。①這一發展的最近表現是歷史數據庫的大量出現。不少文章對數據庫在歷史研究中的價值進行了多角度的介紹,②但是很少有學者討論如何有效利用這些歷史數據庫,特別是如何基於結構化歷史數據庫開展研究,這不利於真正發揮歷史數據庫的價值,也不利於史料革命的進一步深化。量化歷史在如何利用大規模數據庫方面,已經形成了較為完善的分析方法,但史學理論中對這些方法和具體實施步驟的介紹還比較少。③本文希望在量化歷史研究步驟及其對歷史研究的價值這兩方面提出一些初步的想法,拋磚引玉,推動學界提供更多這方面的討論。
一、量化歷史的含義及與新史學的關係
量化歷史研究是交叉學科,是用社會科學理論和量化分析方法來研究歷史。量化歷史研究目的是發現歷史的規律,即人類行為和人類社會的規律。在量化歷史研究中,稱這些規律為因果關係,量化歷史研究的過程,就是發現因果關係的過程。理解量化歷史研究的含義,一般需要結合三個角度,即社會科學理論、量化分析方法、歷史學。
理解量化歷史的第一個角度,是其廣泛借鑑社會科學的理論。社會科學包含經濟學、金融學、管理學、政治學、法學、社會學、人類學、教育學及心理學等。就研究涉及的領域而言,量化歷史包含對政治、經濟、思想文化、環境等歷史的方方面面的量化分析。上述不同的研究領域,一個共同的特徵就是需要收集數據,通過量化分析的方法來回答特定的問題,進而來理解人類行為和人類社會。基於數據的研究通常也稱為經驗研究(empirical analysis)。
社會科學理論是關於人類社會某些特徵的一組系統化的論斷,或者是對於真實世界的系統化解釋。這些理論有兩個重要的特徵:一是可以引申出可檢驗的假説或推測;二是隨着支持這些假説或推測的經驗證據越來越多,理論的可靠性程度也越高。④
理論對於歷史研究的價值,在於為分析、理解歷史提供了一個基準和框架。這一框架能夠幫助研究者從紛繁複雜的歷史史料中快速梳理出一個研究的起點、參照系或者靶子,成為理解歷史的重要工具。歷史資料錯綜複雜、千頭萬緒,而人的認知能力有限;如果缺乏理論分析框架,既不便於認知歷史規律,也不利於歷史研究成為一門代際累進的學科。
理解量化歷史的第二個角度是量化分析方法,這包括統計學、計量經濟學、人工智能等領域的方法。量化方法不是一個靜止的概念,而是處於不斷發展中,隨着相關學科知識的進步、計算機技術的發展,新的量化方法不斷出現,能夠處理的數據量越來越多、效率越來越高,發現的結論也會越來越可靠。起初,歷史研究中的“量化方法”很簡單,差不多就是“用數據説話”,加上圖表和一些普通的統計指標,比如均值、方差和相關係數,⑤但如今,不止如此。限於篇幅,本文僅選擇三個角度來介紹量化方法,一是對歷史現象的度量,二是尋找歷史現象的相關性,三是發現歷史對象之間的因果關係。為了發現歷史規律,通常需要進行因果關係的分析,對歷史現象的度量和尋找歷史現象的相關性是尋找因果關係的步驟或起點,通常也可以作為一個單獨的研究。這裏的量化分析方法是大多數社會科學共同使用的方法,與自然科學實驗方法的邏輯也是一致的。目前在社會科學中,經驗研究方法正在從統計推斷(statistical inference)向因果推斷(causal inference)轉變,這種轉變被安格里斯特和皮施克稱為經驗研究的“可信性革命(credibility revolution)”。⑥這場革命的核心是基於隨機試驗的思想來獲得因果關係,即規律性認識。
需要強調的是,量化方法的本質是高效率的處理大規模信息,從中獲得規律認識。其基於眾多現實問題而產生,已發展成為一個內容豐富的學科,有些部分變得非常專業和高深,如何將不同的量化工具與歷史研究有效結合起來,發揮量化方法的優勢,需要不斷嘗試和探索。
理解量化歷史的第三個角度是其與歷史學的關係,這在陳志武之前的研究中已有討論,兩者的關係“體現在量化方法不是要取代傳統歷史研究方法,而是對後者的一種補充,是把科學研究方法的全過程帶入歷史領域。整理考證史料、注重文獻是歷史學研究的傳統,量化史學同樣注重對歷史文獻的考證、確認,這一點沒有區別”。⑦正如本文開篇提到的,由於新史學帶來了史料革命,讓史料規模爆炸式增長,這讓定性方法面臨挑戰,而量化方法則可以較好地應對這一挑戰。但僅有量化並不夠,量化分析需要建立在紮實的定性研究基礎之上,需要與歷史學定性方法相結合,理解史料的歷史背景,否則不管採用什麼研究方法,得出的結論都不會可靠。只有與歷史學的已有研究深度融合,量化歷史才能更好地實現自身的價值。
一項合格的量化歷史研究需要同時達到上述三個學科分支的要求。這也意味着,一項好的量化歷史研究並不容易實現,需要細緻的工作和艱辛的努力。
由量化歷史的概念,可知其是新史學的重要組成部分,儘管新史學有不同的含義,也處在不斷發展變化的過程中,但在對新史學的不同解釋中,一般都強調儘可能結合人文社會科學的知識和方法來研究歷史。隨着人文社會科學研究方法的量化程度大大提高,量化分析已經在社會科學研究中唱主角,在人文學科中的影響也越來越大。
二、量化歷史的研究步驟
《量化歷史研究的過去和未來》一文介紹了科學研究的基本流程。這一流程大致分為五個步驟:第一是提出問題和假説;第二是尋找史料和數據;第三是對數據進行量化分析,尋找因果關係;第四是對發現的因果關係進行解釋和尋找作用機制;第五是論文的寫作。但該文沒有對這些步驟的具體操作展開論述。⑧在此,我們以對“韋伯假説”的相關量化分析為中心,結合其他成果,討論量化歷史研究過程中的主要步驟,限於篇幅,僅針對前四個步驟,論文寫作在此不作介紹。
我們用來作為示範的例子是圍繞《新教倫理與資本主義精神》展開的量化歷史研究。這是馬克斯·韋伯影響最大的著作之一,根據“谷歌學術”的統計,被引用超過三萬次。在該書中,他認為新教地區有更為繁榮的經濟,新教倫理對經濟有重要的促進作用。雖然該書通常被認為是定性研究,但卻建立在大量的統計數據之上,比如在書的開篇,韋伯就提出了下列基於統計數據的發現:
在一個各種宗教信仰混雜之處,只消一瞥其職業統計,往往便會發現一個屢見不鮮的現象,此一現象在天主教的報章和文獻及德國的天主教會議席上一再引發熱烈的討論,那就是:在近代企業裏,資本家與企業經營者,連同熟練的上層勞動階層,特別是在技術上或商業上受過較高教育訓練者,全都帶有非常濃重的基督新教的色彩。⑨
由此開始,韋伯進一步提出了新教倫理與經濟發展之間的關係,這被認為是關於文化與經濟發展最重要的論斷,即新教倫理越強的地方,經濟可能越繁榮。⑩在餘下部分,為表述方便,我們暫時稱之為“韋伯假説”。(11)
韋伯假説隱含了新教倫理可能影響經濟發展的途徑,一是新教徒工作更為努力,二是新教徒儲蓄更多,進而投資更多,從而提高了長期的生產率。上述兩種途徑使得新教倫理推動了資本主義發展。
直到今天,韋伯的著作依然是不同學科的必讀書,影響很大。但這只是解釋資本主義經濟發展的觀點之一。對於這一觀點,是否應該接受?如何來檢驗?如果基於史料,正如韋伯所發現的,新教徒數量越多的地方,經濟發展更好,如此就能斷定新教倫理推動了資本主義發展嗎?對上述問題的回答,構成了一項典型的量化歷史研究。
這一研究由兩位經濟學家貝克爾(Becker)和沃斯曼(Woessmann)完成。他們利用19世紀普魯士(12)452個縣(郡)級政區的調查數據,發現新教徒佔比越高的地區,經濟發展確實越好(比如有更高的人均所得税收入、教師收入,更大的非農業部門規模),這與韋伯的發現一致。但是,當他們將各地平均識字率的差別和新教徒佔比的差別放到一起時,發現後者的影響消失了。他們認為,新教之所以推動了經濟增長,主要是由於馬丁·路德呼籲所有人自己去閲讀《聖經》並直接跟上帝對話,從而(意料之外地)提高了讀寫能力,推動了人力資本的提升。因此,是人力資本,而不是新教的思想倫理,推動了經濟的增長。(13)
下面,我們結合貝克爾和沃斯曼的研究和其他的量化歷史研究,對量化歷史研究的步驟進行詳細説明。
(一)提出問題與假説
量化歷史研究的第一步是提出問題和假説,在介紹這些之前,需要先了解什麼是變量和度量。
1.變量與度量
變量是指可能變化的對象。比如每個地區的氣温、降雨量,每個地區的人均收入水平等。這些變量與定性研究中的“影響因素”“結果”等概念接近,都是從對人類社會的觀察中抽取出來的考察對象,為了表述方便,稱之為變量。
在對韋伯假説的檢驗中,貝克爾和沃斯曼發現,普魯士地區的教徒中大概有2/3是新教徒,1/3是天主教徒,每個地區新教徒數據之間存在較大的差別,因而可以用來檢驗韋伯假説。而在識字率方面,普魯士的452個縣級政區,差別也很大,比例跨度從37.4%到99.3%。
給變量賦予一個數字,就是變量的度量。有些同時還需要一個計量單位。比如,温度是多少攝氏度,身高是多少米。這裏包含三個要素,即度量的對象(即變量本身),度量的數值和度量的單位。清晰的度量對於量化歷史研究非常重要。
就度量的類型而言,可以分為直接度量和代理度量。直接度量是指度量的指標與要度量的變量之間是一致的,比如糧價,是多少兩白銀一石,這樣的度量就是直接的,這要求變量本身的含義是確定的,能夠找到一個單一的值來衡量。
代理度量是指在沒有直接度量的情況下,對關心的變量進行測量。用來度量的值與實際關心的變量之間往往不完全等同。代理變量(proxy variable)是與希望分析但無法度量的變量高度相關的變量。比如什麼是新教倫理,可以從不同的角度去討論,但從實證研究的角度,需要有一個度量,無法度量則難以驗證。由於沒有一個對新教倫理直接度量的指標,解決的辦法是引入代理變量的概念。
在韋伯假説中,貝克爾和沃斯曼用來衡量新教倫理的代理變量是一個地方新教徒的比例。這裏隱含的假定是新教徒越多的地方,平均而言,新教倫理的影響應該越大。衡量經濟發展水平的是一個地區的收入税。之所以用收入税,是因為該税種基於一個人一年的收入水平來徵收。因此,人均收入税越高的地區,平均而言,人均收入也越高。
代理度量與直接度量之間可能存在差別,所以需要通過一些辦法來驗證代理度量的可靠性。驗證的辦法是使用一些其他指標作為代理度量。比如,除了人均收入税的多少,貝克爾和沃斯曼還選擇了男性小學教師的平均工資和當地非農就業的百分比作為經濟發展的代理變量。如果不同的代理度量指標都指向同一個類似的結果,結論就更可信。
2.問題和假説
在前面提到的韋伯假説中研究的問題是,新教倫理是否導致了資本主義的增長。相對於研究問題,假説則更進一步,認為新教倫理導致了資本主義增長。假説是對人類行為和社會規律的一個猜測(猜想)。這個猜測是對關心的變量關係的一個明確表述。比如儒家文化阻礙了創新,儒家文化減少了社會衝突,大運河導致商業革命,等等。由於是假説,其可能會被數據所證偽。
上面的假説,基本上都涉及兩個變量,比如,韋伯假説中,涉及新教倫理和資本主義經濟發展。與社會科學中經驗研究一樣,在量化歷史研究中,把希望解釋的對象叫做被解釋變量、因變量或Y變量,把用來解釋的對象叫做解釋變量、自變量或X變量。下面為了表述方便,分別稱為被解釋變量和解釋變量。韋伯假説中的被解釋變量是資本主義經濟發展,解釋變量是新教倫理。影響資本主義發展的因素很多,這些因素和新教倫理共同影響了資本主義發展,為了發現新教倫理這一單一因素的作用,需要把其他影響因素的效果也揭示出來,排除出去。這些其他的影響因素,一般稱之為控制變量。
假説被提出之後,研究的路線圖也就形成了。一個假説需要證明解釋變量如何影響被解釋變量,因此首先需要對被解釋變量和解釋變量進行度量,然後通過量化方法尋求兩者之間的關係,以及對這種關係進行解釋。
一篇量化歷史研究的論文,通常會關注一個被解釋變量和一個解釋變量,這樣做的目的是為了使論述更為集中,重點去探索兩個變量之間的因果關係。(14)這樣做,並非是簡化歷史,而是分析複雜歷史的可行方式。一個研究中的被解釋變量,在其他研究中可能成為解釋變量或控制變量。同樣,一個解釋變量可能成為被解釋變量或控制變量。通過對同一個問題進行多個角度的量化分析,會有效增加對複雜歷史的認識。這也是考慮到人的認知能力有限,為集中注意力而作的折中,這樣做不是不考慮其他影響因素或解釋變量,而是在分析中儘可能包括各種解釋變量或控制變量,但在寫作中有所側重。
一個好的假説是研究質量的重要保障,好的假説需要含義明確、有一般性、可以被證明或證偽。含義明確包含兩層含義,一是被解釋變量和解釋變量必須是具體的,能夠找到一個指標來進行度量。比如什麼是資本主義萌芽,就是一個模糊的概念,無法通過一個具體的指標進行度量。二是必須清晰説明二者的關係,即解釋變量是如何影響被解釋變量的,這也是下文將介紹的作用機制。
所謂一般性,是指假説不能只陳述個案。比如,旱災導致了明朝的滅亡。由於明朝滅亡只發生了一次,這個假説難以被驗證,但是可以修改為一個一般化的假説,即旱災發生頻率越高的朝代,其存續的時間越短,或旱災增加朝代崩潰的概率。一個假説可能來自於常識、來自於統計數據、來自於理論與其他研究或者來自於歷史材料的描述。
即使在定性研究中,也存在大量的假説,只是由於研究者沒有特意強調,不容易被人察覺。傳統的歷史研究,避免帶着問題閲讀史料,從而希望避免“以論帶史”。那麼量化歷史研究先提出問題和假説,再去收集整理史料的好處是什麼?
量化歷史首先提出問題的好處,一是可以方便跟已有文獻的對話,確定自己的貢獻在哪裏。史料可能證實也可能證偽提出的問題或假説,只要史料的收集既全面又公允不偏,就不存在研究方法上的問題;如果證偽,已有的觀點被推翻,更容易形成重要的發現。實際上,越是重要的假説,討論的角度越多,一般也會有越多的競爭性假説。比如,朝代的滅亡,到底是因為旱災、鼠疫,還是因為農民戰爭,等等。定性研究的特點在於,常常會有很多的假説在一起討論,這幫助我們知道了更多的歷史細節,但也不利於將複雜的歷史條分縷析,將其中包含的規律一個個揭示出來。二是便於跟不同學科的交流,回答不同學科的重要問題。比如貝克爾和沃斯曼對韋伯假説的研究,雖然是討論的普魯士的情況,但其基本問題是文化如何影響經濟發展,研究者可以在這一問題之下,討論基督教在中國的發展對中國經濟的影響,儒家文化對經濟的影響,這不僅有利於在這些重大問題中提供中國經驗、中國故事,也有利於知識的積累。三是可以基於要驗證的假説,從被解釋變量、解釋變量和控制變量的角度,高效率地組織史料。史料如大海,如無問題視角,極易淹沒其中。最後需要指出的是,量化歷史在研究開始就提出問題和假説,但不是預設結論,而是猜測,這個猜測可能被史料證實,也可能被證偽。
(二)理解史料與數據
在提出問題和假説之後,我們需要尋找史料來建立數據庫,即需要找到被解釋變量、解釋變量、控制變量等度量指標和數據。
在拿到相關的史料和數據之後,量化方法並非像很多批評所説的那樣,對數據和史料拿來就用,而是先從不同的維度對它們的質量進行檢驗。這裏的檢驗,主要是基於歷史史料學的基本要求,由於這方面已經有眾多教科書,此處不做介紹。下面主要討論從量化歷史的角度,如何理解史料,重點是史料的代表性問題。
在歷史研究中,拿到的史料往往是關心的研究對象的一部分,只能夠基於拿到的史料去開展研究。儘管隨着歷史大數據時代的到來,有時候可以拿到關於研究對象的全部史料,但這樣的情況還比較少見。基於研究對象的部分信息對研究對象的特徵進行分析,是統計學研究的核心之一。這裏就涉及總體、樣本和隨機抽樣的概念。
在統計分析時,把研究對象的全體稱為總體,每一個研究對象稱為個體,把從總體中抽取的一部分個體稱為樣本。比如,如果研究中國歷史上的皇帝,那麼,所有皇帝就是一個總體。如果只使用清朝的皇帝,那麼就是一個樣本。
什麼對象是總體,取決於研究問題。如果希望知道清代中國的命案率,如果是以省為分析單位,那麼每個省在每一年的命案率就是一個總體。如果只分析其中的一個或幾個省,就是樣本。如果只分析乾隆朝的命案,也是一個樣本。前者是基於空間、後者是基於時間的抽樣。
對於歷史研究而言,基於空間和時間的抽樣是非常常見的。一個典型的歷史研究常常會限定地域和時期,比如清代中後期江南經濟研究。對時間和地區做這樣的限定,是為了方便集中論述,避免將不同時期、不同地區的史料混用。抽樣方法有其特有的優勢,也是目前歷史研究中常用的方法,但從實證研究、發現規律的角度看,這樣的研究方法卻可能會帶來選擇性偏差,研究結果不一定帶有普遍性。
選擇性偏差是指由於選擇的樣本不是隨機抽取的(比如,專挑對研究結論有利的時期和地區),所以不能夠基於這些樣本的特徵推斷總體的特徵。隨機抽取是指保證總體中每個樣本被抽中的概率都是一樣的。例如,不能夠基於江南的經濟發展水平去推斷整個中國的經濟發展水平。這樣的選擇性偏差非常明顯,也很容易被察覺,但歷史研究中,還有大量不容易察覺到的選擇性偏差問題。例如傳統經濟史研究中的“選精”“集粹”問題,其實質就是一個基於樣本推斷總體的問題。(15)
具體而言,如果我們希望知道北宋整個朝代的年均畝產量,那麼北宋所有土地上每一年的畝產量就是一個總體。由於不知道這個總體的規模有多大,我們不妨做一個假定,假設北宋耕地有7億畝,平均每塊耕地面積為70畝,那麼耕地數量就有l千萬塊,再假設是一年一熟制,北宋總共存續了167年,那麼理論上,北宋畝產量的觀察值應該有16.7億個,因此要精確地知道宋代的畝產量這個總體幾乎不可能。如果研究者拿到了16700個北宋畝產量的歷史記載,那麼這1萬多個畝產量佔全體畝產量的比例約為十萬分之一。我們自然要問,這十萬分之一的樣本能否推斷總體呢?
這樣的挑戰不僅僅在經濟史,在其他歷史學分支同樣會出現。比如,如果想知道民國時期中國人的民族觀念,假設只考慮16歲以上的人,那麼總體數量可能在兩億人以上。如果拿到了2000個當時中國人民族觀念的調查或者其他記載,能否基於這2000人來推斷兩億中國人的民族觀念?這裏還需要假定一個人在一生中的民族觀念變化不大。
由於研究者拿到的史料通常是樣本,但希望瞭解的是總體,如何由樣本推斷總體就成為歷史研究的挑戰。這種挑戰在定性和定量研究中都存在,儘管定性研究中不用這套術語,但不代表這個挑戰不存在。定量研究的好處在於,可以明確地展示出這種挑戰,同時利用已有的量化方法克服這種挑戰。
基於總體和樣本的理解,可以知道,歷史大數據或增加數據量,並不必然會解決“選精”與“集粹”的問題。利用樣本信息來推斷總體的信息,是統計學中統計推斷(statistical inference)的重要內容。應對選擇性偏差,基於非隨機抽樣的樣本來推斷總體的特徵,是量化分析方法特別是計量經濟學分析方法的核心關注之一。
(三)相關分析和因果分析
在提出問題和收集數據之後,第三步是量化分析。量化分析方法主要有三類。第一是對數據進行描述統計,主要包括數據的來源、處理過程,觀察值也即樣本量的多少,每個變量的統計特徵,比如平均值、方差、最小值和最大值等。描述統計主要針對單個變量進行分析。這一方法比較簡單,在歷史學研究中較常見,不贅述。第二是相關性分析,主要分析方法包括畫散點圖、畫地圖、計算相關係數等。這一方法主要用於分析兩個變量之間的關係。第三是因果關係分析,通常使用多元迴歸分析的方法,重點是處理內生性問題和發現作用機制。
1.相關關係
當我們提出假説時,實際上就提出了一個相關關係,也就是兩個變量的數值之間的變動關係。相關關係分為三種,分別指正相關、負相關和不相關。
正相關是指兩個變量朝相同的方向變動,比如新教徒數量越多的地區,經濟發展水平越高。負相關是指兩個變量往相反的方向變動,比如儒家文化越發達的地方,發生暴力衝突的次數會更少。不相關是指兩個變量的變動沒有關聯。韋伯在《新教倫理與資本主義精神》中開篇就提到他所發現的相關性。這種相關性構成了這一專著的起點和基石。展示相關關係的方式主要是畫散點圖、畫地圖和計算相關係數。散點圖是用二維座標展示同一個觀察對象兩種不同特徵度量值關係的圖。橫軸標示一個變量的數值,縱軸標示另一個變量的數值。每一組數值對應散點圖中的一個點,點的位置由兩個變量的數值決定。通常,自變量標示在橫軸,因變量標示在縱軸。如果兩個變量之間不是解釋與被解釋的關係,可以將變量標記在任意座標軸。畫地圖的方法,使得相關性在空間上的分佈很直觀地展示出來。從貝克爾和沃斯曼的文章所畫的地圖中,可以看到新教徒數量越多的地方,人均收入税確實越多。當然,這也從一個角度説明,如果只考慮某些特定的區域,比如普魯士東北部地區,結果可能會是完全相反的。這正是考察大樣本和考察個案所帶來的差別。散點圖和地圖圖示方法可以直觀展示兩個變量的相關關係,但並不精確,且也難以對不同組變量之間的相關性進行比較。解決辦法是計算相關係數。相關係數描述兩個數值變量之間線性相關關係的方向和強度。數值介於-1到1之間,符號的正負表示正相關和負相關,等於0時表示不相關。相關係數絕對值越大,表示相關性越強,反之,則越小。
2.因果關係
韋伯顯然沒有滿足於只是發現新教徒數量與經濟發展之間的相關性,而是繼續追尋背後的因果關係。
因果關係的基本含義是改變一個變量的值,就可以使另一個變量的值改變。由於與相關關係類似,兩個變量都有變動關係,人們常常將相關關係誤讀為因果關係。但相關關係不等於因果關係;相關關係中可能隱含有因果關係,也可能沒有,一般需要進一步證明。在相關關係中,改變其中一個變量的數值不一定會引起另一個變量數值的改變。因果關係是指若一個事情發生,另外一個事情必然發生。當然,有一個重要的前提條件是給定其他條件不變。這一思想最早來自約翰·穆勒(John Stuart Mill)的差異法(Method of Difference),即通過“比較某現象出現的場合和不出現的場合,如果這兩個場合除一點不同外,其他情況都相同,那麼這個不同點就是這個現象的原因,兩種情況的差異就是這個原因的因果效應”。(16)
學界早已注意到,在定性研究中,本身就隱含了眾多的因果推斷,甚至幾乎在每一頁上都有一個隱含的函數關係,即我們這裏討論的因果關係。比如“春秋戰國之際,隨着鐵農具和耕牛的使用日漸廣泛,農業產量不斷提高;每個王朝中後期,隨着土地兼併現象日趨劇烈,農民階級與地主階級之間的矛盾日益尖鋭”(17)——儘管傳統史學者不做基於大樣本的統計分析、檢驗(也不用量化歷史研究的術語),但這些典型的史學論斷中,包含了許多因果關係結論,或者説,只要有這種論斷,就是在下因果關係結論。由於通常情況下,歷史學家沒有明確意識到其中包含的某種函數關係,更難於想到在可能的條件下用量化方法檢驗。這使得這些論斷,即使經過一定史實檢驗,陳述的時候也顯得缺乏説服力,或者僅憑直覺或少量個案做出,經不住計量檢驗。(18)
導致相關關係不等於因果關係的問題,一般也稱為內生性(endogeneity)問題。造成內生性問題的主要原因,一種是遺漏變量,一種是反向因果。遺漏變量是指有一個變量在研究過程中沒有被考慮到,一旦這個變量被考慮進來,就能夠解釋為什麼之前觀察的兩個變量之間存在相關關係。比如在韋伯假説中,一旦考慮到人力資本這個變量,就會看到新教徒數量與經濟發展水平之間沒有了相關關係。這時候的人力資本,就是一個遺漏變量(當然,因為新教鼓勵教徒自讀《聖經》,所以每個新教徒需要從小讀書,因此人力資本更高)。反向因果是指因果關係的影響方向與預判的是相反的,或者存在互為因果的情況。比如,在韋伯假説中,就可能存在經濟發展潛力越大的地區,越可能選擇新教。這時候就不能得出結論説是新教徒越多的地方,經濟越發展。
既然因果關係是研究的目的,因果推斷在定性研究中也很常見(只是定性研究很難處理好因果關係的論斷問題),那麼,如何來進行因果推斷呢?我們首先介紹自然科學和醫學中進行因果推斷的方法,接着介紹量化歷史研究中使用的方法。
在自然科學中,可以通過重複試驗來解決這一挑戰。通過將影響實驗結果的其他因素都控制住,考察一個因素變動帶來的影響。在醫學中,一般要通過大樣本雙盲對照試驗發現因果關係。其背後的原理就是實驗方法。以醫學中對藥物有效性的驗證為例,在什麼情況下,才能夠説一種藥物對於某種疾病有效?在新型冠狀病毒肺炎治療案例中,一種藥物對某位美國患者有明顯的療效,是否就可以下判斷説這種藥物是有效的呢?這裏面至少存在兩個問題需要解決,首先是這個患者不僅僅只服用了這種藥物,可能也服用了其他的藥物(包括不同飲食),或者是使用了其他的治療方式,到底是哪一種藥物或治療方式起作用,需要區分開,但是我們只能觀察到多個因素共同起作用的結果。其次是某些疾病即使是不吃藥,有些人也能自愈,因而就有可能遺漏掉患者會自愈這個影響因素。為了證明某種藥物的作用,通常需要做大規模隨機對照試驗。
歷史不能夠做試驗,但研究者發現,在某些情況下,歷史可以很好地充當實驗室。在量化歷史中,一般稱之為(準)自然試驗,即依靠歷史事件模擬隨機對照試驗,將歷史對象分為對照組和處理組。貝克爾和沃斯曼對於韋伯假説的檢驗,就是利用準自然試驗的方法,這也是目前量化歷史研究中最為常用的方法。(19)
在經濟學、政治學等社會科學領域,經驗研究正在經歷研究範式的轉變,即從統計推斷向因果推斷轉變。這也被認為是經濟學經驗研究的“可信性革命”。(20)可信度革命是指在經驗研究中,基於隨機化試驗的思想,通過良好的識別策略,發現因果關係。基於歷史自然實驗的思路,實證研究方法有工具變量法、差分方法、斷點回歸方法等。(21)
3.迴歸分析
上述發現因果關係方法的實現,都需要通過迴歸分析。迴歸分析是一種統計方法,通過建立統計模型,用一個或多個解釋變量來解釋被解釋變量。迴歸分析可幫助人們理解,當任意一個解釋變量發生變化而其他變量保持固定時,被解釋變量將如何變化。
迴歸分析是展示變量相關性的一種重要方法,同時也是因果推斷的基礎和最重要的工具之一。迴歸分析與相關分析不一樣,迴歸需要選擇解釋變量與被解釋變量,而相關係數不需要。迴歸分析可以處理兩個以上變量的相互關係,一個被解釋變量和多個解釋變量,以及多個控制變量。
由於歷史現象通常是多個因素共同作用的結果,也就是説,通常涉及兩個以上的變量(即歷史現象是一個多變量函數)。因此,在量化歷史研究中,多元迴歸分析是最為常用的方法。多元迴歸分析能夠幫助我們在保持其他影響因素不變的情況下,考察一個特別的因素對於歷史結果的影響,即特定的自變量對因變量的影響。
還是以韋伯假説為例,我們能夠觀察到的是不同地區的經濟發展水平,但影響經濟發展水平的因素很多,基於目前經濟增長理論的研究,直接原因有技術、物質資本、人力資本等,而根本原因則有制度、地理、文化、土質、產業結構、海外關係,等等。這麼多的影響因素共同作用,影響了一個地區的經濟發展。我們如何將新教倫理的因素與其他因素分離出來呢?如果我們觀察到一個縣(郡),新教徒的數量很多,但經濟發展較慢,能否就説新教倫理對於經濟增長起到了反向的作用,即新教徒數量越多,經濟發展越差呢?或者沒有影響呢?這裏面可能遺漏掉另外的因素,比如存在一個因素,使得經濟發展變慢,這時候新教徒倫理的作用就被掩蓋掉了。具體來説,假如新教倫理平均可以讓經濟增長快1%,但另外一個因素可以讓經濟增長慢2%,最後,我們雖然看到一個地區新教徒數量很多,但是經濟增長可能是負的,出現這樣的問題,正是因為遺漏了重要的其他影響因素造成的。多元迴歸分析正是將重要的影響因素都儘可能考慮到並將不同因素的影響剝離開的方法。
吳承明很早就介紹了迴歸分析方法在經濟史研究中的應用,(22)但當時的迴歸分析基本是用手計算,差不多隻能做單變量回歸,樣本數量不能太大,所以,迴歸分析的作用不大。隨着計量經濟學的興起,尤其是計算機速度和成本的變化,今天的迴歸分析已經變得非常發達。迴歸分析成為社會科學中的主流分析方法,在人文學科中的使用也越來越多。
隨着量化分析方法的不斷改進,針對不同的數據類型,不同的研究設計,分別有對應的迴歸分析方法來處理。對這些方法的詳細介紹,最好是參考計量經濟學或統計學的專門書籍。
一項量化歷史研究通常需要進行很多的迴歸分析,貝克爾和沃斯曼文章中的迴歸表格就有十個。這是因為需要將不同的影響因素考慮進來,需要考察是否有遺漏變量、反向因果的問題,以及對結果的可靠性程度,也要從不同的維度進行檢驗。
(四)作用機制分析
通過上面步驟建立因果關係後,我們還需要知道為什麼這種因果關係會發生,也就是解釋變量是如何影響被解釋變量的。
機制是指解釋變量如何影響被解釋變量,其產生影響的原因是什麼。在對“韋伯假説”的論證中,貝克爾和沃斯曼發現新教徒數量與資本主義經濟增長之間是正相關的關係,即新教徒數量越多的地方,經濟增長越快,其中起到作用的機制是新教徒的識字率更高,而不是新教倫理。
機制研究是量化分析的核心組成部分,其價值在於揭示發現的因果關係是如何起作用的,其原理在哪裏,也是對因果關係的進一步支撐。
正如當我們知道某種藥能夠治療某種疾病時,我們還需要知道這種藥是如何治療這種疾病的。比如青蒿素能夠治療瘧疾,但是到底是如何起作用的。今天的藥物研究,需要説明某種藥物的有效成分是如何在分子層面起作用的,即具體是如何幫助治療疾病的。以2020年新型肺炎為例,需要説明藥物的有效成分作用在病毒的哪個成分上面,讓病毒難以複製或死亡。
與此類似,我們對於在人類社會中發現的因果關係,也需要知道其作用機制是什麼。作用機制的途徑,通常也是來自於理論、其他學者的研究、常識與史料,在研究過程中,通常會出現多種可能的作用機制,因而需要對每一種可能的作用機制進行驗證。驗證的方法,仍然是依靠多元迴歸分析。
對於作用機制的分析,一般需要從三個方面進行。第一,起作用的機制變量。比如人力資本必須與解釋變量高度相關;比如,新教倫理越高的地方,人力資本應該越高。第二,需要説明機制變量與被解釋變量高度相關,即人力資本越多的地方,經濟發展狀況更好。第三,需要説明,當同時考慮作用機制變量和解釋變量之後,解釋變量的解釋力變小或消失,即係數在統計上顯著性下降或不顯著;而機制變量有很強的解釋力,即係數統計上顯著。在迴歸分析中,就是顯著性下降或消失。也就是説,當不同的解釋出現的時候,最好的辦法是使用“賽馬模式”,將不同的解釋變量放到同一個多元迴歸模型中進行分析。貝克爾和沃斯曼通過將識字率加入到迴歸分析中,發現新教徒數量的係數在統計上不再顯著,表明新教徒數量對於經濟發展的影響消失。而這時識字率的係數顯著為正,表明新教徒佔比對於經濟發展的影響主要來自於識字率。
三、量化歷史作為新史學的價值
量化歷史是新史學的重要組成部分,陳志武在之前的研究中已經從新知識革命的角度介紹了量化歷史對於知識創新的價值,通過不同案例説明量化歷史不僅僅是驗證已有的常識,也帶來新知識、新認知。(23)本文所引用的案例也表明量化方法在知識創造、解決爭議、糾正錯誤認識等方面的優勢。接下來,筆者側重從歷史學研究面臨的挑戰出發,介紹量化歷史作為新史學對於歷史學研究的價值。
基於前文提出的量化歷史研究步驟和方法,我們認為量化方法對歷史學的價值主要體現在如下方面。
(一)應對歷史大數據的挑戰,幫助分析複雜的歷史
歷史學建立在史料的基礎上,隨着大規模史料的出版、公開、數據庫化,研究者已經注意到,歷史大數據時代和“數字人文時代已經到來”。(24)
歷史大數據包含兩層含義。第一是接近全樣本,也就是可以掌握研究對象的總體。比如關於清代官員的信息,由於有縉紳錄和地方誌,清代中後期絕大多數官員的信息都能夠得到還原。根據前述樣本與總體關係,隨着歷史學家掌握總體,統計推斷帶來的挑戰會下降,但因果推斷的挑戰依然存在,需要應用最新的量化方法來應對。
第二是數據量巨大,這又表現在兩個方面,首先是由於引入定性變量和代理變量,可以將海量的歷史資料轉為數據。比如,僅清代刑科題本檔案就有近65萬本。不僅僅是清代,即使是很早以前的歷史,也藴藏着海量的數據。以考古墓葬為例,僅僅是香港大學“中國考古數據庫”所收錄的先秦已經發掘的遺址數量,就接近6萬個。
其次是數據之間的關聯。數據庫的潛能不僅僅是在每一個單獨的數據庫本身,更為重要的是不同數據庫之間的關聯和匹配。舉例來説,可以將縉紳錄中近500萬個官員的記錄與《清實錄》、清代檔案中的官員行為記錄匹配起來。縉紳錄數據本身就是歷史大數據,如果與官員的行為記錄匹配起來,其數據量將達到數億級別。在相關數據可得的情況下,依靠計算機,這樣的匹配可以在很短的時間內就完成。當越來越多的信息匹配起來之後,我們有機會建立起關於複雜歷史的更為真實的圖景。
歷史大數據出現之後,使用定性方法顯然難以將這麼多的數據做一個整體分析,從中得出經驗性的認識,但量化分析方法卻可以較好地應對這種挑戰。因為數據量的加大很大程度上只是對計算機計算能力提出了更高的要求,而量化分析的基本原理沒有發生大的變化。量化分析中的多元迴歸分析可以有效應對數據庫匹配之後帶來的多變量分析的挑戰。實際上,本文介紹的量化歷史研究,基本都是在對多個歷史數據進行匹配的基礎上開展的。
量化方法在應對歷史大數據挑戰的同時,也有助於分析複雜的歷史。歷史的複雜性體現在很多方面,梁啓超早就注意到:“然因果關係至復賾而難理,一果或出數因,一因或產數果,或潛伏而易代乃顯,或反動而別證始明,故史家以為難焉。”(25)
量化方法是處理複雜性的有效方法,其辦法主要是將歷史現象拆分成不同的因果關係。比如,新教改革無疑是非常複雜的歷史現象。量化歷史對新教改革的研究,大體可以分為兩組研究,一是新教改革的原因,二是新教改革的後果,包括短期和長期的後果等。本文介紹的貝克爾和沃斯曼是研究新教改革後果的量化歷史研究之一,貝克爾等學者對新教改革研究提供了一個詳細的綜述,涉及量化歷史研究達50多項。(26)
上述研究的特點均是使用歷史大數據,分析因果關係。看起來每篇文章的結論都可以用一兩句話進行概括,但其結論經過了上述四個量化分析步驟,可靠性程度大大提升,也大大增加了我們對新教改革這一複雜歷史的認識。
(二)識別歷史的長期影響,形成貫通性認識
歷史的長期影響,(27)是人們關心歷史的重要原因。今天很多重要的社會結構性特徵,都與歷史有關。比如,儒家文化對今天中國人的影響。那如何識別出歷史的影響呢?實際上,在量化歷史研究中,這是很大一批文獻,一般稱之為“遺產(legacy)”研究。
一個例子是科舉制度的長期影響。科舉制度在中國持續了1300多年,1905年被廢除,這樣的制度對於今天的中國人是否產生了持續的影響,如果有影響,是通過什麼渠道產生的?陳婷(Chen Ting)等結合歷史上的科舉數據、今天的統計數據和大量微觀調查數據,對此進行了分析,他們發現,科舉制度即使廢除了,那些歷史上出進士較多的地區,今天平均的受教育年限更長,對教育的重視程度更高。具體來説,在排除其他影響因素的情況下,明清時期一個府每萬人中每多增加一個進士,到2010年時人均受教育年限要多增加0.7年。之所以產生這樣的影響,主要是由於對教育觀念的重視。(28)
量化方法對歷史長期影響的分析,也有助於形成貫通性的認識。歷史研究強調“通古今之變,成一家之言”,通史的訓練是歷史學中非常重要和基礎的部分。歷史學最重要的特徵之一是歷史的時間性,即考慮人類社會長時段的規律。
儘管強調時間性和打通斷代是歷史學研究的重要訴求,但中國悠久的歷史留存下來的史料汗牛充棟,要從中對某些歷史特徵進行長時段的描述,具有挑戰性。這種挑戰,梁啓超有過生動的表述,他説:“中國歷史可讀耶?二十四史、兩《通鑑》、九通、五紀事本末,乃至其他別史、雜史等,都計不下數萬卷,幼童習焉,白首而不能殫,在昔猶苦之,況於百學待治之今日,學子精力能有幾者?”(29)
這種困難,通過簡單的量化分析,就可以得到緩解。基於時間序列數據和麪板數據,(30)不僅可以快速地對歷史時期非常重要的歷史事件進行長時段的描述、與世界其他地區已有的研究進行對比,更重要的是,這有助於改善知識創造和積累的方式,以後的學者,將可以在此基礎上做進一步的推進,而不需要從頭開始閲讀史料。這方面的早期探索包括竺可楨對五千年氣候變化的研究,(31)《歷代戰爭年表》(32)等。在此基礎上,如何建立起氣候變化與戰爭之間的因果關係,則是量化方法擅長的事情。這正是龔啓聖和白營的工作,他們研究了遊牧民族在什麼情況下更有可能攻打中原。(33)
(三)推動歷史學與社會科學的交流與對話
史學被認為是一切社會科學的基礎,應該成為社會科學理論創新的源泉,但從各個社會科學的實際情況看,史學還沒有起到應有的作用。
量化歷史直接從問題和假説出發開始研究,這些問題和假説也是不同社會科學關注的問題。如果假説得到證實,由於歷史提供的實驗室,使得理論被接受的可能性和可靠性得到增強,基於中國歷史的例子也可以很好地融入社會科學理論之中。如果假説和理論被證偽,則會更好地推動理論的修改,形成重要的理論創新,這正是社會科學真實的發展過程。當然,歷史的作用在這裏,不僅僅是社會科學理論的實驗室,對於理論的證實和證偽,可以從不同的角度增進對歷史的認識。比如,諾貝爾經濟學獎得主米爾頓·弗裏德曼等人通過對1867-1960年美國貨幣史的量化歷史研究,推導出了著名的貨幣層次理論及貨幣供應理論,是對經濟學理論的重要貢獻。(34)
隨着歷史大數據時代的到來,如何高效率地處理大規模史料並從中獲得規律性認識,是當代歷史學面臨的新挑戰。量化方法經過數十年的發展完善,已經在應對大規模數據庫、發現因果關係方面走在了前面。將量化分析方法和歷史大數據結合起來,是新史學的重要內容,也是一種必然趨勢。本文對典型量化歷史研究的步驟進行了詳細説明,並介紹了其在應對歷史學挑戰方面的價值。除此之外,量化方法的類型還很多,留待將來再做介紹。
強調量化歷史研究的優勢,並非意味着這些優勢能夠自動實現、或者很快就能夠實現,一項好的量化歷史研究需要很多條件的配合,也需要大量堅實的工作。而量化歷史研究作為一個新興的領域,仍然處於不斷完善的過程之中。
在使用量化歷史研究方法的過程中,也需要注意其適用的條件,任何一種方法都有其適用的範圍和侷限,一項研究的發展也需要學術共同體的監督和批評。量化方法作為“史無定法”中方法的一種,在歷史大數據時代,其作用將越來越大。
註釋:
①徐善偉:《當代西方新史學與“史料之革命”——兼論中國新史學史料體系的重構》,《史學理論研究》2010年第2期。
②相關介紹參見梁晨、董浩、李中清《量化數據庫與歷史研究》,《歷史研究》2015年第2期;夏明方《大數據與生態史:中國災害史料整理與數據庫建設》,《清史研究》2015年第2期。
③對量化歷史發展過程、價值和前景的介紹,參見陳志武《量化歷史研究告訴我們什麼》,《量化歷史研究》2014年第1期;陳志武《量化歷史研究的過去與未來》,《清史研究》2016年第4期;陳志武《量化歷史研究與新知識革命:以財富差距與消費差距的歷史研究為例》,《北京大學學報》2018年第4期。
④Janet Buttolph Johnson,H.T.Reynolds,Jason D.Mycof,Political Science Research Methods,CQ Press,2016,p.54.
⑤陳志武:《量化歷史研究的過去與未來》,《清史研究》2016年第4期。
⑥Joshua D.Angrist,J
rn-Steffen Pischke,“The Credibility Revolution in Empirical Economics:How Better Research Design Is Taking the Con out of Econometrics”,Journal of Economic Perspectives,Vol.24,No.2,2010,pp.3-30.
⑦陳志武:《量化歷史研究的過去與未來》,《清史研究》2016年第4期。
⑧陳志武:《量化歷史研究的過去和未來》,《清史研究》2016年第4期。
⑨馬克斯·韋伯:《新教倫理與資本主義精神》,康樂、簡惠美譯,上海三聯書店2019年版,第8-9頁。黑體字為原文所加。
⑩Daron Acemoglu,Simon Johnson,and James A.Robinson,“Institutions as a Fundamental Cause of Long-Run Growth”,in Philippe Aghion,Steven N.Durlauf,eds.,Handbook of Economic Growth,Vol.1a.,Elsevier B.V.,2005,pp.385-472.
(11)當然,《新教倫理與資本主義精神》討論的內容很多,涉及很多不同的觀點,我們這裏的討論只集中於新教倫理是否推動了經濟增長這一判斷。
(12)普魯士是新教發源地,是韋伯觀察新教倫理與資本主義發展的地區,也是韋伯的家鄉,基於這一地區的歷史考察韋伯命題再合適不過了。
(13)Sascha O.Becker and Ludger Woessmann,“Was Weber Wrong? A Human Capital Theory of Protestant Economic History”,The Quarterly Journal of Economics,Vol.124,No.2,2009,pp.531-596.
(14)對一些已有研究不足的探索性論文,通常會將不同的變量放在一起進行初步分析。
(15)李伯重:《“選精”、“集粹”與“宋代江南農業革命”——對傳統經濟史研究方法的檢討》,《中國社會科學》2000年第1期。
(16)Paul W Holland,“Statistics and Causal Inference”,Journal of the American statistical Association,Vol.81,No.396,1986,pp.945-960.這段話的翻譯轉引自趙西亮《也談經濟學經驗研究的“可信性革命”》,《經濟資料譯叢》2017年第2期。
(17)龐卓恆主編《西方新史學述評》,高等教育出版社1992年版,第404頁。
(18)龐卓恆主編《西方新史學述評》,第404-405頁。
(19)關於歷史自然試驗的介紹,參見Davide Cantoni and Noam Yuchtman,“Historical Natural Experiments:Bridging Economics and Economic History”,NBER Working Paper Series,February 2020,26754; Jared Diamond and James A.Robinson,eds.,Natural Experiments of History,Harvard University Press,2010。
(20)Joshua D.Angrist and J
rn-Steffen Pischke,“The Credibility Revolution in Empirical Economics:How Better Research Design Is Taking the Con out of Econometrics”,pp.3-30.
(21)這些方法在常見的高級計量經濟學教材中都有詳細介紹,限於篇幅,在此不展開介紹。
(22)吳承明:《中國經濟史研究的方法論問題》,《中國經濟史研究》1992年第1期。
(23)陳志武:《量化歷史研究與新知識革命:以財富差距與消費差距的歷史研究為例》,《北京大學學報》2018年第4期。
(24)黃興濤:《當代中國歷史學的時代使命》,《歷史研究》2019年第1期。
(25)梁啓超:《中國歷史研究法中國歷史研究法補編》,四川人民出版社2018年版,“自序”,第7頁。
(26)Sascha O.Becker,Steven Pfaff,and Jared Rubin,“Causes and Consequences of the Protestant Reformation”,Explorations in Economic History,Vol.62,2016,pp.1-25.中文介紹參見賀嵬嵬《宗教改革的前因後果》,“量化歷史研究”微信公眾號第358篇推送。htps://mp.weixin.qq.com/s/fYkKeMvlNiDpsJWluBL3w[2019-09-27]
(27)Nathan Nunn,“The Importance of History for Economic Development”,Annual Review of Economics,Vol.1,No.1,2009,pp.65-92.
(28)Ting Chen,James Kai-sing Kung,and Chicheng Ma,“Long Live Keju! The Persistent Effects of China’s Civil Examination System”,The Economic Journal,Vol.130,No.631,2020,pp.2030-2064.
(29)梁啓超:《中國歷史研究法中國歷史研究法補編》,“自序”,第7頁。
(30)時間序列數據由一個或多個變量在不同時間點的觀測值構成,比如歷史上每50年的人口數量。一組觀察對象在不同時間的觀察值彙集一起,就構成了面板數據,比如歷史上每個府每月的糧價。
(31)竺可楨:《中國近五千年來氣候變遷的初步研究》,《考古學報》1972年第1期。關於這一歷史時期氣候變化數據的重建,參見葛全勝、方修琦、鄭景雲《中國歷史時期温度變化特徵的新認識——紀念竺可楨〈中國過去五千年温度變化初步研究〉發表30週年》,《地理科學進展》2002年第4期。
(32)中國軍事史編寫組:《中國曆代戰爭年表》,中國人民解放軍出版社2003年版。
(33)Ying Bai and James Kai-sing Kung,“Climate Shocks and Sino-nomadic Conflict”,Review of Economics and Statistics,Vol.93,No.3,2011,pp.970-981.
(34)陳爭平:《大數據時代與經濟史計量研究》,《中國經濟史研究》2016年第6期。