【量化】回答沈逸老師,新冠疫情下越民主死的越多麼?_風聞
好好玩量化-好好玩模型,量化观世界2020-11-20 15:01
之前,沈逸老師在一場關於中美關係的講座中CUE了“做量化的”,並留了個作業
作為日常搞量化研究的社畜,這個視頻一是為了交作業,用量化的方式驗證沈逸老師所説的“醫療資源越高、越民主,死的人就越多”;
二是作為觀察者網觀察員,風聞、b站的老白piao,這兩年看着經濟、文化、自然等各個領域的科普內容百花齊放,也激發了我想把“寬客”的研究日常搬上來的慾望。
所以在我的視頻中,我會盡量還原我的研究過程、甚至一些重要的研究細節,如果大家有什麼想法,歡迎在評論區和我討論
解題先審題,從量化的視角看,沈逸老師佈置的作業,是想要尋找:
解釋變量“民主”、“醫療資源”
被解釋變量“新冠死亡人數”
之間是否存在以下兩個關係:
1. 兩個解釋變量之間是否存在較高的正相關關係,以驗證沈逸老師的前半句話“醫療資源越高、越民主”;
2. 解釋變量和被解釋變量之間是否存在的穩定的量化關係,這個量化關係,最簡單的,可以是:
(Y=a*X1+b*X2+c),其中,只要係數a、b都大於0、且在統計學上具有一定的顯著性,那麼我們就可以驗證沈逸老師的後半句“死的人越多”。
但是,現在比這些量化關係更重要的在於數據。對量化研究而言,底層數據質量直接決定結論的可信度。
所以,我一半的時間都花在尋找數據和處理數據上。然後,我……禿頭了。
首先,對民主的衡量,沈逸老師已經給了參考資料:民主之家的民主指數。但是我們查遍了各類網站,發現可獲取的權威數據中,只有自由之家的自由指數和《經濟學人》旗下智庫編制的“民主指數”。PICK誰?This is a question。通過分析,我發現兩者相關性達到95%。並且,只有後者符合沈逸老師提出的四分類。
因此,在後續的研究中,我使用了《經濟學人》的民主指數數據。從2019年民主指數世界地圖看,顏色翠綠的北美、大洋洲、南美和歐洲的民主指數,普遍高於山河一片紅的亞洲和非洲。


不過,我們在進一步觀察這個指數的數據質量時,發現一個很有意思的現象:自從2006年民主指數公佈以來,美國的得分一直很高,但是在2016年懂王上台之後,美國首次從完全民主國家降級為部分民主國家,並且,此後一直穩定在“部分民主”國家的行列。
後來《經濟學人》還官方出面解釋了這個問題:這並不是由於唐納德·特朗普的當選。而特朗普的當選卻是美國民主劣化的其中一個結果。
民主指數搞定,醫療資源的衡量也是一個比較頭疼的問題。我以“醫療”、“資源”為關鍵詞谷歌了一下,最終找到一篇2016年發表在醫療權威期刊《柳葉刀》上的學術論文《Measuring performance on the Healthcare Access and Quality Index for 195 countries and territories and selected subnational locations: a systematic analysis from the Global Burden of Disease Study 2016》,這篇論文通過對全球195個國家和地區的32種疾病的治癒率和死亡率進行打分,最終計算出“醫療可及性和醫療質量指數”,簡稱HAQ指數(Healthcare Access and Quality Index,HAQ指數)。

從HAQ指數地圖上看,民主得分較高的北美、歐洲、大洋洲,仍以表徵HAQ得分較高的冷色調為主,而民主指數相對較低的亞洲和東歐國家,同樣有較高的HAQ指數得分。所以僅直觀觀察,目前還無法得出“醫療資源越豐富、越民主”這樣的正相關結論。

這兒再插一下咱們國家大陸地區HAQ指數情況。
1990年到2016年,我國大陸地區的HAQ圖譜完成了從暖色到冷色的蜕變。截止2016年,大陸地區的HAQ指數得分為78分,在195個國家中排名第48位。同時,東部沿海地區多個城市的得分達到82分以上,排名位於世界前列。這背後,不僅僅是我國醫療水平的進步和醫療資源的豐富,還有醫保惠及全民帶來的醫療可及性的提升。而在疫情這類公共衞生危機期,醫療可及性的提升可能才是降低死亡的關鍵。

最後一組數據,是被解釋變量“新冠死亡人數”,但這個數據的絕對值是無法直接應用在此次分析中的。因為如果一個數億人口大國的死亡人數,與一個百萬人口小國的死亡人數相同,那麼數據背後代表的是截然不同的疫情嚴重程度,因此為了排除人口基數帶來的影響,此處我們使用衍生指標:
每百萬人死亡人數=(總死亡人數/總人口)*100萬
衍生指標中所需要的死亡人數和總人口,都是官方公佈數據,Our World in Data這個網站(官網鏈接https://github.com/owid/covid-19-data/tree/master/public/data)將這些數據做了統一的收集與整理、且每日更新、方便提取,因此我們的數據主要來源於這個網站。這裏我還要着重安利一下這個網站,Our World in Data收羅了很多領域的高質量數據,比如在後續的深入研究中,我們利用到的隔離程度、衞生情況、病牀數量等數據,也都來自於這個網站。
好了,到此,讓我禿頭的數據部分結束了,驗證觀點的時刻正式開始。
Question1:醫療水平VS民主指數
最直觀的,畫一個散點圖, HAQ指數(醫療水平)作橫軸,民主得分作縱軸, 把各個國家變成一個個座標點後,能看到他們確實存在一個斜向上的趨勢。
定量一點,可以用“相關係數”來衡量變量間的相關性水平。民主指數和HAQ指數的相關係數為0.61。統計學中認為,相關係數絕對值在0.6以上代表強相關,所以這算是論證了
“在統計學上,醫療水平和民主水平具有較強的正相關性”
Question2 : 醫療+民主 VS 死亡人數
我也嘗試用畫圖這種簡單粗暴的方法來驗證。所以在之前的散點圖上,加入了圓圈大小來表示死亡人數的信息,散點圖的左下角和右上角的兩大極端,正好佐證了沈逸老師的觀點。But,中間區域的圓圈大小更類似隨機分佈,沒什麼規律,所以目前只能得到:
僅部分國家呈現“醫療越好越民主、死的人越多”的規律。
哦,這兒插一句,美國,你真是個優秀代表!(鼓掌)

BUT,在量化世界裏,定性再美終是輔助,定量才是最終歸宿,所以一切以數據為準。(考慮到數據可得性,以下研究僅以GDP TOP50的國家作為樣本)。
想建立一個類似這樣的方程來分析醫療民主和死亡人數之間的關係(Y=a*X1+b*X2+c),最簡單的方法是做迴歸。(這裏已經做了共線性等檢驗,此處不再贅述。)
迴歸是方法,實現靠代碼,代碼寫得好,量化不難搞。RUN一下、結果出來了(liao)。
迴歸結果認為,死亡人數與民主和HAQ呈現這樣的線性關係,由於兩個係數a、b均為正,因此這個迴歸公式優秀的證明了“醫療水平越高、越民主、死的人越多”。
每百萬人死亡人數 = 30*民主指數+0.15*HAQ指數+11
BUT,在詳細看了迴歸參數後,發現事情沒有這麼簡單。
首先,調整後R方代表迴歸結果對因變量的解釋度,數字越接近1,代表等式左邊越能完美擬合因變量。這裏調整後R方為0.022,約等於:用這個公式,還不如瞎猜咯。


P值代表自變量前的係數的可靠程度,這裏HAQ的P值是95%,代表有95%的概率認為HAQ對死亡人數木!有!影!響!

算算算!算了一堆!算出了個寂寞。)

在此,艾特一下沈逸老師,做量化的算不出來民主醫療和死亡人數之間的顯著關係!!!!
做倆月了!不能用這個結果END!(吶喊)
我反思了一下,之所以不顯著,可能因為民主、醫療並不是非常有效的解釋變量,也可能在控制了其他變量之後,民主和死亡的相關性就會提升。
路漫漫其修遠兮,吾將,再找變量!
通過查閲文獻和頭腦風暴,我新增了十幾個可能與死亡人數相關的變量:檢測能力、隔離程度、經濟發展程度等等。這些異想天開的數據,大部分數據都可以從Our World in Data找到。在此,僅代表所有的量化人,衷心的感謝能提高工作效率、減少禿頭面積、維護家庭和諧、有利身心健康的Our World in Data。


考慮到數據較少和實際含義等因素,我採用逐步迴歸法來驗證。這裏通俗的解釋一下,逐步迴歸就是把變量一個一個的加入到迴歸模型中,檢查之前提到的那些擬合參數有沒有變好,如果變好了就保留,如果沒有顯著變好,就剔除。
一通代碼猛如虎、RUN了之後發現有點靠譜,最終,擬合出這個公式:
每百萬人死亡人數 = 51*民主指數+8*政策嚴格程度-553
其中,調整後R方為0.18,確實算不上特別顯著,但這已經是包含民主指數後,最顯著的迴歸結果。

並且係數的P值都非常顯著,基本上代表有98%以上的概率,相信上述關係成立。

每百萬人死亡人數 = 51*民主指數+8*政策嚴格程度-553
這個來之不易的迴歸公式,代表當國家間的政策嚴格程度相同時,民主指數每提高1,基本意味着:這個國家每百萬人中將增加50人死亡。
如果某個國家,和美國一樣,正好有3億左右的總人口,那麼民主指數每提高1,疫情死亡人數就增加1.5萬人。
做完作業,已是深夜,發給沈逸老師後,我陷入了思考:新人UP主,怎麼要一鍵三連,才顯得比較矜持?
好好玩模型,量化觀世界
評論區:
更多思考:每百萬人死亡人數 = 51*民主指數+8*政策嚴格程度-553,這個迴歸公式中政策嚴格程度也和死亡人數呈現正相關關係,怎麼解釋?
我去深扒了一下政策嚴格指數,這個指數是牛津大學編制的,根據社會封鎖政策(包括關閉學校、工作單位;關閉公共交通工具;限制大型集會)、經濟政策(收入政策,即政府直接向失業人員發放現金補助)、醫療系統政策(包括接觸追蹤)、其他四個方面來打分。
這個打分體系中的社會封鎖政策,關注到了停工和集會,卻沒關注到Happy和Party,如果疫情期間利用停工停學時間外出聚會,那麼確實有可能導致正相關關係。
以上純屬猜測