吳洪淇 | 司法量化評估的建構邏輯與理論反思_風聞

探索与争鸣-《探索与争鸣》杂志官方账号-2021-09-26 22:03

2021-09-26

吳洪淇 | 北京大學法學院研究員

司法常常被視為社會正義的“最後一道防線”，以及保障社會正義的重要方式，對於法治社會建設具有重要的基礎性價值。但是，我國的司法狀況還存在許多不盡人意之處，司法腐敗時有發生，錯案、冤案屢屢出現，司法不公問題依然是建設法治國家面臨的一大難題。因此，通過系統的司法改革來推進司法公正是我國近十年來改革的重點。在司法改革推進過程中，一項必須要做的工作便是對我國的司法狀況進行全面的、系統的、動態的評估。一方面，司法是一個複雜的社會系統，其存在的問題及其深層次根源只有在全面科學的評估基礎上才能確定。另一方面，司法改革舉措的成效及其對司法系統各層次的影響也需要通過動態的觀察與評估才能顯現出來，而觀察和評估的結果又將反過來影響司法改革措施的調整。因此，圍繞司法和司法改革，近年來國內湧現出各種各樣的評估。這些評估從不同維度展開，既有司法系統內部的評估也有學界外部的評估，既有侷限於某一專項（比如司法公開、司法公信力等）的評估，也有面向整個司法系統的評估；既有采用定量方法的評估，也有采用定性方法的評估。這些司法評估在不同程度上影響着社會各界對於司法的整體觀感，同時也會對司法機構和司法改革舉措帶來直接影響。因此，需要對這些司法評估本身進行再評估。本文主要聚焦於司法量化評估，對司法量化評估體系建構的邏輯和基本方法從理論上加以反思。

背景：從量化法治到司法量化評估

我國的司法量化評估可以説是普適主義法治價值推廣與中國本土改革共同推動下的產物。自我國20世紀90年代確立“依法治國”的基本方針到2014年10月出台《中共中央關於全面推進依法治國若干重大問題的決定》，法治無論是作為一種社會治理方式還是一種理想圖景，一直都是整個社會追求的重要目標。但對於中國這樣的發展中國家來説，如何實現法治這樣一個相對抽象的目標就成為了學界探求的一個重要問題。一方面，一些學者對法治實現的目標、條件和實現路徑進行了深入的反思；另一方面，一些學者則嘗試以定量的方法來測度法治的實現狀況，比如中國人民大學朱景文主持的《中國法律發展報告——數據庫和指標體系》和浙江大學錢弘道主持的《中國法治指數報告》。後一種進路可以稱為“量化法治”進路，也就是從量化數據的角度將法治這一相對抽象的目標具體化為一些可以把握的指標，然後通過問卷調查的方式來衡量一個國家或地區某一階段的法治發展水平。“量化法治”進路一定程度上可以説是“法治與發展”運動和美國社會指標運動相結合的產物，其核心是“希望在法治領域找到化約種種複雜性和多樣性的‘公約數’,乃至繪製出一幅數字化的世界法律地圖”。在這一“數字化的世界法律地圖”當中，各國的法治發展水平可以通過量化的方式呈現出來。在量化法治實踐方面，比較成熟的有世界銀行的世界治理指數（WGI）、“世界正義工程”（WJP）開發的世界法治指數等。以下以世界法治指數為例，對其具體展開形式做一個介紹。

世界法治指數是由“世界正義工程”開發的一套法治評估方法，該項目由美國律師協會於2006年發起，後來得到蓋茨基金會等民間組織和個人的贊助。該項目的目標和任務是促進世界各地的法治發展，並堅信“法治是社會機會和公平的基礎——它意味着根除貧困、暴力、腐敗、瘟疫和其他對公民社會的威脅”。為了有效評估世界各國的法治狀況，“世界正義工程”開發出一種量化評估方法——世界法治指數。該指數描繪了世界各國在實踐中堅守法治程度的一個綜合圖景，從普通人的視角調查了可能影響人們日常生活的法治運行的實際狀況。世界法治指數作為衡量各國法治發展程度的綜合數據庫，旨在為政策制定者、商業機構、非政府組織和羣眾提供一個獨立的數據資源庫，以便把握由普通人感知或體驗的一個國家的法治情況。在不同國家法治強弱程度的比較中，世界法治指數通過年度報告的形式追蹤最新的法治動態變化狀況，從而為世界各國加強法治建設提供了一面“鏡子”。具體實現方法是在每個國家的三個最大城市選擇1000名代表，通過問卷調查的方式讓這些受訪者對本國的法治狀況進行評價。迄今為止，世界法治指數已發佈9份年度報告（2010、2011、2012—2013、2014、2015、2016、2017—2018、2019、2020），分別對35、66、97、99、102、113、113、101、128個國家進行了評估排名。儘管世界法治指數所採用的方法和背後所代表的某種法治普適主義的理念在學界存在不少爭議，但這些持續發佈的報告一定程度上對中國整體法治狀況的評價產生了重要的影響。

在世界法治指數的視野下，中國在法治領域尤其在司法領域的排名並不樂觀。表1呈現了2015—2020年度世界法治指數中，中國司法的兩個領域（民事司法和刑事司法）的得分與在世界主要國家中的排名狀況。分析這六年來的數據，無論是民事司法還是刑事司法領域，中國在全球排名中一直較低，基本上是處於中流，個別年份甚至在末流。因此，從世界法治指數這面“鏡子”來看，中國法治指數在世界法治指數中排位較低，而司法領域作為法治指數的一個重要組成部分，某種意義上已經成為中國法治建設的一塊短板。

這樣一種評價一定程度上也構成了我國不斷進行司法改革的一種外部推動力。自黨的十八大以來，司法領域的全方位改革一直都是全面深化改革的重要環節。黨的十八屆四中全會將保證“公正司法，提高司法公信力”作為決議的重要內容之一，明確提出公正是法治的生命線，司法公正對社會公正具有重要引領作用，司法不公對社會公正具有致命破壞作用。為了推進司法公正，需要不斷完善司法管理體制和司法權力運行機制，規範司法行為，加強對司法活動的監督。與此相配套，黨的十八屆四中全會推出了司法員額制、司法責任追究制、基層檢法人財物上調省級統管、干預司法記錄通報制度、司法人員履行法定職責保護機制等一系列改革舉措。

改革應該建立在對現狀進行準確科學評估的基礎上，這是過去四十年來我國經濟改革獲得成功的一條寶貴經驗。在本輪司法改革展開的同時，圍繞司法領域的量化評估也紛紛湧現。目前涉及司法領域的評估大致可以區分為三大類：第一類是類似於世界法治指數這樣的對法治的整體性評估，這種評估主要將司法領域作為其中一個組成部分，比如像前述朱景文主持的《中國法律發展報告——數據庫和指標體系》和錢弘道主持的《中國法治指數報告》。此類評估的優點是視野開闊，立足於法治整體狀況進行評估。但對於司法領域而言，這類報告因為關注整體法治體系而對司法領域本身關注不足，比如在錢弘道主持的《中國法治指數報告》中，司法方面的指標僅僅是9個一級指標之一。第二類則是對司法領域某一專門性問題，比如司法公開、司法公信力等展開評估。由中國社會科學院國家法治指數研究中心持續發佈的《中國司法公開第三方評估報告》便是此類評估的一個典型代表，該系列報告重點關注中國司法系統近年來力推的司法公開改革，通過深入而細緻的跟蹤調研來呈現我國司法公開方面的改革及其落實情況。不過對於司法領域的全面改革來説，這些單項的專門性評估的關照面又顯得較為狹窄。第三類司法量化評估則是居於前兩類之間，將司法領域作為一個整體來加以評估。司法領域是一個整體的領域，司法領域不同層面的改革往往緊密相關，只有對司法進行系統全面的評估，才能更為有效地為當前司法全方位改革提供科學的參考依據。對司法領域全口徑評估的典型代表是由中國政法大學司法文明協同創新中心持續發佈的系列《中國司法文明指數報告》。該系列報告的核心目標是通過司法文明指數體系的設計開發應用，來實現對我國各地區司法文明發展程度的科學動態的整體性評估。項目組開發出一套由10個一級指標和50個二級指標組成、相對穩定的司法文明指標體系。從2014年開始，通過發放問卷和收集客觀數據的調查方式對全國31個省級地區進行司法文明指數評估，在此基礎上先後按照年度發佈了6份《中國司法文明指數報告》。下文將以該指數報告為樣本，考察司法量化評估體系建構的基本邏輯和實施路徑。

司法量化評估體系建構的邏輯與路徑

在日常生活當中，評估活動廣泛存在於社會各個領域，比如消費者對所購買商品的評價、被服務者對各種服務所進行的評價。與對這些商品和服務的評估相比，對司法的評估有其獨特性，其獨特性根源於司法活動本身的特殊性。

首先，一個國家的司法是多維度的，包括司法制度、司法從業人員、司法的硬件環境乃至社會整體的司法文化，而且每一個維度之下又有多個組成部分。司法的這種多維度性使得要對司法進行全面評估需要有一套相對多維的評估體系和相對精密的評估方法，否則就容易陷入盲人摸象的誤區。其次，司法活動具有專業性。“隨着法律的職業化、專業化以及大量複雜的法律術語和耗費時間和財力的程序……法律活動變成一個普通人除了依賴於法律專業人員之外無法也沒有時間涉足的領域。”這種專業性將導致外部人士要對其進行評價必然存在信息不對稱的問題。最後，司法的結果是一種零和博弈，司法裁判的結果往往很難令訴訟各方都滿意。因此，訴訟的參與者們儘管有與司法打交道的經歷，但很容易因為訴訟結果不同而對司法有着不同的觀感，這必然會對司法評估的準確性產生主觀影響。

基於司法本身的特性，對司法量化評估體系在設計的過程中要系統解決三個問題：第一，誰來評估，即解決評估主體的問題；第二，評估什麼，即解決評估對象的問題；第三，如何評估，即解決評估方法的問題。

（一）評估主體：內部視角與外部視角

司法本身的特殊性決定了在選取評估主體的時候要考慮哪些主體是司法評估的適格主體。第一，司法的專業性所帶來的信息不對稱問題使得外行人對司法活動很難進行準確的評估，因此在選擇評估主體的時候要特別將兩類羣體考慮在內：第一類是法律職業羣體本身，法律職業羣體又包括兩類子羣體，一類子羣體是行使司法權力和相關權力的羣體，如法官、檢察官和公安人員等。這類子羣體對司法的多個維度都具有較為充分的認識，但與此同時，這類子羣體自身又是司法權力本身的一個核心要素，對自身的評價容易因為利害關係和認知偏見等因素而帶來評估上的偏頗。因此，就需要將第二類子羣體也就是律師羣體納入評估主體當中，律師羣體一方面對司法有較為深入的介入，另一方面因為律師不掌握司法權力，對司法的評估上會相對中立。

第二，司法評估還應該將一般的社會公眾作為重要的評估主體。這主要是基於兩個方面的原因：第一個原因是司法要具有權威性就必須具有外觀上的合法性，這種外觀上的合法性對維繫司法裁決的可接受性至關重要。這種外觀上的合法性體現在一般社會公眾對司法的籠統觀感中，包括法律職業人員的行為甚至面貌、司法機關的建築、與司法有關的輿論傳聞等。第二個原因是前述司法的零和博弈性往往會導致當事人對司法呈現差異化評價，一般社會公眾的評價可以對這種差異化評價形成一種有效補充。正是基於上述考慮，司法文明指數調研採用內部視角與外部視角相結合的辦法，充分吸收法律職業人士的內部視角和一般社會公眾的外部視角。具體做法是在選擇評估主體時將下列羣體都兼顧在內：（1）在每個省選取200位法律從業人士作為評估主體，其中包括80位律師、40位法官、40位檢察官、40位警察；（2）在每個省選取600名社會公眾作為評估主體，這些社會公眾一方面包含一部分涉訴的社會公眾，另一方面在選擇時也兼顧了各個不同行業、文化程度、區域、年齡層次的從業羣體。

（二）評估對象：四個層次

司法本身包含多個維度，因此對司法的評估需要從多個維度來展開。根據量化司法進路，對一個社會司法狀況的整體評估需要從不同的層面出發，來建構一個整體性的指標體系。按照司法文明指數項目的設計，對一個社會司法文明程度的考察可以從以下四個層面着手：

第一，司法權力與當事人權利的合理配置。合理的權力配置體制是司法文明得以實現的基本前提，而權力配置體制最主要的兩個維度就是司法權力的配置和當事人權利的保障，兩者是同一問題的兩個不同側面。為此，司法文明指數分別設置了“司法權力”和“當事人訴訟權利”2個一級指標。其中，“司法權力”這一一級指標之下又分解為5個二級指標，分別是司法權力依法行使、司法權力獨立行使、司法權力公正行使、司法權力主體受到信任與認同、司法裁判受到信任與認同。“當事人訴訟權利”之下分解為4個二級指標，當事人享有不被強迫自證其罪的權利、當事人享有獲得辯護與代理的權利、當事人享有質證的權利、當事人享有獲得救濟的權利。

第二，司法程序與證據制度的合理建構。科學的司法程序與證據制度是司法文明得以實現的制度保障。司法程序與證據制度部分，分別設置了4個一級指標：民事司法程序、刑事司法程序、行政司法程序與證據制度。其中，“民事司法程序”設置了3個二級指標，包括民事審判符合公正要求、民事訴訟中的調解自願合法、民事訴訟裁判得到有效執行。“刑事司法程序”設置了3個二級指標，包括偵查措施及時合法、審查起訴公正有效、審判公正及時有效。“行政司法程序”設置了2個二級指標，包括行政審判符合公正要求、行政訴訟裁判得到有效執行。“證據制度”設置了3個二級指標，包括證據裁判原則得到貫徹、證據依法得到採納與排除、證明過程得到合理規範。

第三，合格的司法主體是司法文明得以實現的主要載體，這一司法主體主要指司法程序中的法律職業人員。合格的法律職業人員首先應該具有高尚的法律職業倫理，遠離司法腐敗，這是合格的法律職業人員的基本條件。與此同時，也應該給予法律職業人員以適度的職業化保障，因為職業化保障是法律職業人員具有高尚職業倫理的基本前提。為此，分別設置2個一級指標：司法腐敗遏制和法律職業化。“司法腐敗遏制”這一一級指標下面包括3個二級指標，即警察遠離腐敗、檢察官遠離腐敗、法官遠離腐敗。“法律職業化”這一一級指標下有3個二級指標：法律職業人員具有適格性、法律職業人員遵守職業倫理規範、法律職業人員享有職業保障。

第四，司法公開和理性司法文化的培育是司法文明的基本目標。司法如果喪失基本的公信力，則社會公正將會失去“最後一道防線”，而司法公信力的獲得需要通過推進司法公開來促成。司法公開有利於公眾理性司法文化的養成，而公眾的理性司法文化則是培育司法公信力的社會土壤，兩者休慼相關。因此，在“司法公開”這一一級指標下又存在2個二級指標，包括司法過程依法公開和裁判結果依法公開。而在“司法文化”這一一級指標下又存在4個二級指標，包括公眾參與司法的意識及程度、公眾訴諸司法的意識及程度、公眾接受司法裁判的意識及程度以及公眾接受現代刑罰理念的意識及程度。

（三）評估方法：主觀判斷的客觀化

在評估具體實施方法上，需要通過以下三個步驟來建立司法文明指數評估體系。

第一步是建立司法文明指數指標體系。司法面相多元，從組織到制度、從主體到職業環境，構成了一個複雜的司法系統。對這一複雜的司法系統進行有效的評估，就需要先建立相對完整的司法文明指數指標體系。在參考既有司法理論和廣泛聽取相關專業人士意見的基礎上，如前所述，司法文明指數項目組構建了10個一級指標，它們從權力配置與權利保障、司法程序構建、司法主體的規範以及司法文化的培育等多個層面共同展現了一個國家司法的基本情況。從可操作性角度出發，司法文明指數項目對10個指標進行了平均賦值。在這10個一級指標的基礎上，派生出32個二級指標，它們共同構成了對一個國家司法狀況加以評估的指標體系。

第二步是針對32個二級指標進行問卷設計。要對全國不同區域的司法狀況進行評估，問卷調查是獲取信息最有效的一種手段。通過問卷調查的方式可以將不同羣體對本地司法狀況的評價儘可能地加以定量化測度。為了實現前述目標，在問卷的設計上要從以下三個方面加以處理：第一,在問卷的分類上，針對一般社會公眾和法律職業羣體對司法的認識程度差異，分別設計了針對一般社會公眾的問卷和針對法律職業羣體的問卷。針對一般社會公眾的問卷問題較為簡單，問卷的問題主要是瞭解社會公眾對本地司法隊伍、司法腐敗遏制、司法公開以及司法文化等一級指標的瞭解。而針對法律職業羣體的問卷則問題數量較多，問題更為複雜，在範圍上側重法律職業化、司法權力配置、司法程序和證據制度等更為專業化的一級指標。第二,問卷問題的設計上緊緊圍繞司法文明指標體系。問卷的問題要能夠指向對應的二級指標，這樣受訪者每回答一個問題就意味着對某一二級指標作出了判斷。比如，“在您所在地區，貧富不同的當事人受到法院平等對待的可能性有多大？”這一問題指向的二級指標是“司法權力公正行使”。第三,對問卷問題的答案進行賦值。除了對問題本身進行設計之外，對問題的回答還需要呈現一定的傾斜度，這種傾斜度可以用來測度司法的某一方面。以前述問題為例，對該問題的答案是 “非常可能、很可能、有可能、不太可能、非常不可能”這樣呈現傾斜度的回答，受訪者選擇不同的答案就意味着對某一二級指標給出了不同的賦值。

第三步，將問卷進行彙總，然後對問卷答案進行統計，測算出每一個地區不同受訪者對本地區司法的不同指標給出的分值。問卷調查通過較大樣本的受訪者答卷可以高效地將不同受訪者對本地司法狀況的評價彙集起來，從而實現主觀判斷的客觀化。一定程度上説，司法文明指數展開的過程就是將某一地區的社會公眾（包括法律職業羣體在內）對本地區司法狀況的評價意見收集彙總並加以賦值的過程。某一個體對於本地區司法的判斷也許是主觀的，但這些個體疊加起來形成的判斷則是相對客觀的。這些由個體意見形成的公共意見會構成對一個地區甚至一個國家司法狀況的基本評價，進而對司法改革走向產生切實的影響。

司法量化評估進路的理論反思

從世界法治指數項目到司法文明指數項目，司法量化評估進路在我國得以落地並對司法的評價產生了切實的影響。司法的量化評估通過大樣本的問卷調查等各種方式，有助於從宏觀上對不同地區、不同維度的司法狀況加以把握，從而為司法改革宏觀決策提供一定的參考。司法文明指數項目通過對相關問題的跟蹤調研和賦值可以很好地呈現出這些司法改革舉措對不同羣體所造成的差異化影響，從而為下一步司法改革政策調整提供相應的依據。但也要看到，以指數呈現出來的司法量化評估也一直存在着一些無法迴避的隱憂。

第一個隱憂是司法量化評估背後往往潛含着一種關於司法的理想圖景，這一理想圖景成為對一個國家和地區司法狀況加以評估的衡量標準。而這一理想圖景往往來自於一些法治發達國家對司法的界定和描述。正如一些學者已經意識到的，“與現代法治的理念和實踐一樣，法治指數……是在法律全球化背景下一種全新的世界法律地圖，它所傳播的是特定的法治理念，有特殊的原始樣本,自然難以避免地產生一系列扭曲作用”。這樣一種“扭曲”常常體現為本土的羣體訴求難以為這些帶有普適化的法治版本所兼容，從而出現制度訴求與制度供給之間不相匹配的“秋菊式”困境在我國司法改革推進的過程當中，同樣存在着公理化的司法制度標準在中國本土司法環境中具體落實與審慎調試的過程。這樣一種困境同樣存在於以世界法治指數為借鑑對象的各種司法量化評估項目當中。比如説，如果以“獨立”作為一個尺度來衡量司法，因為域外與中國對該概念的理解存在很大的差距，那麼測度的結果和實際的結果會大相徑庭。為此，在建構中國本土司法指數時，一個重要的挑戰就是要建構一套與西方司法普適話語有所區別，但又與中國本土司法狀況相契合的指標體系。司法文明指數項目在這一方面進行了一些嘗試，初步建構了由10個一級指標和32個二級指標組成的司法評估指標體系，但這些指標是否能夠真正反映出中國司法狀況，還需要在未來實踐當中進一步驗證。

第二個隱憂則是司法量化評估進路在具體實施方面還存在諸多潛在的風險。司法量化評估的核心在於通過精心設計的問卷調查去獲取社會對司法評估的意見並對其進行賦值和闡述。在這一過程中，如何確保社會對司法的評價不會被扭曲甚至誤讀，是司法量化評估過程中需要解決的難題。其中，風險之一是對不同指標加以相對準確的賦值。在指標確定之後，對於指標如何賦值將會直接影響指數評估的最後結果。在指標的選擇和賦值方面，國際上已經發展出一套較為成熟的方法，比如德爾菲法。風險之二是司法量化評估一般是通過問卷調查來收集評估者的反饋意見，問卷通過問題設計及賦值實現了對評估者意見的格式化處理；因此，問卷設計合理與否將會決定能否充分合理地將評估者對司法的意見客觀反映出來，這其中包括問卷問題與指標之間的匹配度、被訪者對問卷問題的可接受度等。風險之三是受訪者容易出現樣本偏差的問題，樣本偏差容易導致對實際司法狀況的錯誤評估。司法量化評估通常需要大量的受訪者來提供相關信息，但這些受訪者基於不同視角、不同立場、不同經歷，對於本地司法常常會有截然不同的認識和評價。因此，在選擇受訪者的時候要儘量能夠做到相對均衡，按照不同職業、年齡層次、文化程度、訴訟經歷等來選取不同的受訪者，特別要注重司法內部視角和外部視角的均衡。

第三個隱憂是對於司法量化評估的結果要加以合理化的使用，不能片面停留在對相關結果和排名的關注上。司法量化評估的最終結果往往會反映在不同區域、不同維度的排名和得分上面，這些排名和得分固然會説明司法本身存在的一些問題，但其價值對於司法量化評估工作來説僅僅是冰山一角。無論是排名還是得分都僅僅是被訪者評價結果的展現，更為重要的還是要探測出被訪者之所以如此評價的深層次原因。因為只有瞭解了這些深層次原因，決策者才能對相應的政策作出調整。司法量化評估的意義在於，一方面通過一套指標體系來測度受訪者對司法的評價，另一方面更為重要的是通過深入分析評價背後形成的深層次原因，來準確揭示司法存在的問題及其根源。比如某一省級地區獲得的評價很差，那麼就可以進一步去分析是因為哪些指標獲得了不好的評價，進而通過分析受訪者的背景並結合當地的實際情況來分析這些指標上獲得差評的根源是什麼。唯有如此，司法量化評估才能真正成為改進司法的一面“鏡子”，真正發揮其對司法測度和監督的作用。