"女司機不會開車"是偏見還是事實?_風聞
观察者网用户_239226-2018-10-31 11:13
首先,對昨天重慶萬州公交車墜河事故的遇難者表示哀悼。在這起事故中,網民們的反應出現了一個一百八十度大轉彎——從一開始對女司機的咒罵,到後來對女司機集體道歉。其中爭論的一個關鍵問題是,女司機開車到底怎麼樣?
這個問題其實很難回答。目前的數據是怎麼算的呢?
作者使用了男性和女性引起的事故數除以分性別駕駛員人數,得到了這張圖:

從這張圖看來,男司機的事故率是女司機的很多倍對吧?但這樣的計算實際上缺少了一個最重要的環節——登記的司機不等於開車的司機。
類似地,當我們使用分性別車險費率之類的變量來度量男司機和女司機的事故率的時候,也會碰到這樣的問題,我們看到女司機的保險費率低時,並不知道保險公司是因為女司機不開車才給了低費率,還是因為女司機開車不容易出事才給的低費率。
問題的關鍵是缺少一個「風險暴露程度」,也就是暴露於風險的窗口大小。對於交通事故來説,常見的「風險暴露」主要包括里程和駕車時間。
可以看到將里程考慮在內的統計數據:

上表一樣顯示了女性駕駛員的死亡事故數少於男性。
二,駕車時間
在這篇文章中,作者使用了另一個暴露率——駕駛時間。
方式是通過電話隨機訪談過去一個工作日的通勤駕駛時間和事故數量,得到下表:

從這張表中能看出,在絕大部分情況下,女司機的單位時間事故率也要低於男性司機。
上面的兩個研究結果顯示,開車同樣長的里程,同樣久的時間,女性事故率都是要低於男性的。
但問題是否解決了呢?還沒有。因為,即使開同樣的里程,同樣的時間,凌晨四點駛過街頭的半掛重卡,和晚上八點堵在三環上的小轎車,風險暴露的程度也是完全不一樣的。而在前一種場景下,坐在車裏的幾乎肯定是男性司機。而上面的一些分析,最多也只是區分了行人、摩托車和轎車,但我們都知道,車和車之間的差別,大概比轎車和行人之間的差別還要大。
怎麼辦呢?我最近恰好在使用法律文書數據做一點研究,從2014年1月到2018年10月,一共有105萬份和交通事故有關的法律文書時間,上面詳細記錄了每一起事故,舉一個例子:
在裁判文書中有下列字句:
2014年3月15日9時15分,汪傑步駕駛粵THN9**號小型轎車沿沙古公路由古鎮往裕祥村方向行駛,駛至中山市沙古公路橫欄鎮裕祥紅綠燈處時,與從古鎮往裕祥村方向行駛由郭巨林駕駛的粵TFR0**號二輪摩托車(搭乘植釗洋)發生碰撞,事故造成雙方車輛損壞及郭巨林、植釗洋受傷。
在這一份法律文書中,就包含了非常多的信息,比如時間、地點,雙方車型,誰開的什麼車,事故造成了什麼結果,是否有人受傷,是否有人死亡。然後在文書中也可以看到原告、被告的性別、出生年月日。通過這個數據,我們可以控制更多的變量。例如事故時間:

上圖顯示了事故發生的時間和事故中出現死亡的概率,可以看到,死亡率最高的時間出現在凌晨的1到4點,大約每四個事故就有一個事故出現死亡(與半夜運貨的重卡有關)。而早晨8點是事故死亡率最低的時間。
例如車型:

被告開的是小轎車時,事故中出現死亡的概率最低,而被告若是開重型貨車,那麼事故的死亡率飆升至20%。
我們還能識別出的變量包括是否在高速上出事、是否酒後駕駛、是否在市區內駕駛(通過事故地點經緯度來判斷)等等。通過這種方式,我們將駕駛事故的場景差異給大大控制住了。
除了以上這些變量以外,使用法律文書數據還能把前面最難控制的風險暴露窗口大小給去掉。
假設所有的駕駛風險是a,出現死亡的概率是 P(d) ,那麼要計算誰駕車更容易造成死亡,我們應該計算的是 P(d|\a) ,也就是在給定風險暴露下出現死亡事故的概率。
但問題是,人們很難去計算a ,人們不知道怎樣才能計算出可比的風險暴露環境來,那自然也無法計算 P(d|\a) 了。
而通過法律文書的計算,我們則不需要去計算這個a,而是去考慮另一個場景——事故已經發生了,而且至少有一人在事故中受傷或者死亡,設他等於b,相對於前面那個難以度量的廣義的風險暴露程度a ,我們現在有了一個更容易控制風險暴露程度的場景b.現在去計算 P(d|b) 。用文字來説,我們前面的計算做了一些什麼事?
直接比較事故率的話,必然要用事故數量除以一個分母。而我們不知道分母是什麼,往往會陷入女性和男性到底誰開了什麼車是倒車時出事還是跑長途出事這種沒完沒了的討論,而兩個**「車型、事故發生時間、事故位置都一樣,至少有一人受傷或者死亡(排除剮蹭等輕微事故)」**的事故所造成的風險暴露,至少是可控的,也就是分母變得一樣了。
我們就是要在這個風險暴露下,計算至少有一人死亡的概率。
舉一個例子,「早高峯時間8點到10點,雙方都是小轎車,事故發生在距離市中心五公里以內,未酒後駕車,事故造成至少一人受傷或死亡」的場景下,如果被告是駕駛員,那麼駕駛員的性別和事故造成死亡的概率之間有什麼關係?

再看一個例子,「凌晨3點,雙方都是小轎車,事故發生在距離市中心五公里以外,未酒後駕車事故造成至少一人受傷或死亡」,那麼上圖變成:

可以看到,在嚴格控制了風險暴露程度之後,女性司機駕車造成死亡的風險都要比男性低一些。在越容易發生事故的場景,男司機造成死亡的概率超過女司機的程度也越大。
如果我們把這些變量都一股腦兒控制掉的話,那麼女性司機駕車造成死亡的概率要比男性低1.4%,係數在0.1%水平上顯著。
那麼,怎麼樣直觀地去理解這個1.4%呢?我們發現,在前面計算出1.4%差異的的計算中**,若是被告都屬於酒後駕車,那麼男司機和女司機的事故死亡率差異就立刻消失,在統計上不再顯著了。**
我們再看第三個場景,事故時間出現在晚上20到23:59分,雙方都開小轎車,被告酒後駕車,事故發生地點在市區:

女司機16.67%,男司機16.78%,雙方半斤八兩了。所以説,男司機和女司機有什麼可吵的呢?
撐破天了也就1.4%的差異。你以為男女司機的差異很大嗎?
十倍的男女司機差異,才能抵得上一杯酒。