復旦教授鄭磊:面對肺炎疫情,政府的數據開放還有很大空間_風聞
锐公司-中文财经期刊《商界》官方账号-全球发行量最大的中文财经期刊之一《商界》旗下平台2020-01-27 08:09
鋭評:研究表明,媒體的報道量增加十倍,傳染病的感染數將會減少33.5%。面對疫情,公眾只有掌握了充分的信息,才能做出更理性的決定,採取更有利的行動。
自武漢新型冠狀病毒感染的肺炎疫情爆發以來,國家和地方各級政府部門通過各種渠道發佈了許多領導指示、疫情通報、自我防護知識、相關政策通知,這些信息的發佈有助於公眾獲知疫情的發展情況和相關知識,在一定程度上滿足了公眾的信息需求。
然而,進入了大數據時代,除了以上政府發佈的信息,公眾可能還想知道一些更具體的數據,比如:所在城市或區縣每天有多少確診和疑似病例,增長情況如何?也想了解一些有關病人基本情況的數據,比如:病人從哪裏來,去過哪裏,哪天發病的,那些疑似病例後來確診了沒有,如果沒確診,他們得的又是什麼病?
雖然我也不斷會從網上和身邊的朋友那裏得到各種各樣的小道“消息”,但這些消息是真是假,難以確定。而且這些信息比較零碎,無法讓我全面系統地瞭解疫情的進展情況。我想知道有關疫情的最新的、權威的、準確的官方數據。
國家衞健委網站數據
於是,我來到了國家衞生健康委員會的網站,看看這裏有沒有公開的官方數據。打開國家衞健委的官網後,首先在網頁最上方位置看到了“全力做好新型冠狀病毒感染的肺炎疫情防控工作”橫條。(以下未經特別註明者,均截圖於1月23日)
▲國家衞生健康委員會網站首頁,1月24日截圖
點進橫條,可以看到頁面最上方是“疫情通報”、“防空動態”兩個版塊,在“疫情通報”中可以看到國家衞健委發佈的各省確診病例和疑似病例數據。
▲國家衞生健康委員會網站,1月24日截圖
1月23日這天發佈的疫情通報詳細列出了17例死亡病例的病情介紹。但是,我如果還想知道其他幾百例確診和疑似病例的情況,就無從得知了。
而且,雖然這些病例情況已足夠詳細,但數據是以夾雜在文字中的形式出現的,而不是以結構化表格的形式展現,不夠清晰直觀,也不利於使用者進行分析利用。假如我想用這些數據做一些分析的話,還需要自己先從這些文字中把數據提取和整理出來,做成表格或圖。在這些大段的文字之外,如果還能有一張數據表格就能一目瞭然,方便很多。
此外,國家衞健委發佈的數據只到了省一級,而沒有每個城市或區的數據。於是,我搜到了武漢市衞健委的官網,來看看這裏有沒有城市一級的數據。
武漢市衞健委網站數據
在這個網站的首頁,第一眼看不到有關疫情的信息或欄目。逐個點開各個欄目後,才在“公示公告”這一欄目下找到了“肺炎情況通報”。
相關通報公佈了武漢市的累積病例數量和當日新增病例數據。然而,這些數據仍然沒有以表格的形式出現。在1月21日發佈的情況通報裏,只能看到20日那天的新增病例數據,想要知道20號之前的數據,就要再去翻找以前發佈的通報。
再進一步查找後發現,這些情況通報是和醫療機構名單、知識問答、結果公示等其他信息夾雜在一起發佈的,並不便於用户查找和獲取。更重要的是,這些情況通報不是每日都有更新,數據並不完整。比如,1月17號,以及1月6號至1月10號都沒有發佈情況通報。這幾天是沒有發現新增病例?還是沒有發佈新增病例?沒有任何備註説明。
哪裏能找到一張有關疫情數據的表格?這張表格不用很花哨,只需要把每個地方每天的疫情數據都清楚明白地展現出來就行。
然而,無論在國家、湖北,還是武漢衞健委的網站上,我都沒有找到這樣一張表格。實際情況是,有關疫情的數據以碎片化的、不連續的、不完整的方式散落在不同的政府網站、頁面和文件裏。大部分公眾不可能有精力和能力去各個政府網站上提取和整理這些數據,其結果是,雖然各級政府認為它們已經發布了這些疫情數據,但老百姓並沒有獲得感。
武漢市衞健委發佈的情況通報中還包括了新增病人的男女人數、病人最小和最大年齡等統計數據。然而,這些數據是對原始數據進行加工和歸總形成的結果,並不是一手的原始數據。原始數據可以用來做進一步的深入分析,但統計數據的再利用空間就很小了。
比如,情況通報中公佈了新增病例的最小年齡是15歲,最大年齡是88歲,但15歲到88歲這個區間實在是太大了,如果我想知道在15-88歲之間,病人主要集中在哪個年齡段,我和我的家人是否正好屬於這個年齡段,僅通過15和88歲這兩個統計數據是無法回答我的這些問題的,只有得到經過統計歸總前的每一個病人的年齡數據才行。
當然,我並不需要知道每個病人的姓名、住址和電話等個人信息,而只需要得到有關他們的一些基本特徵的數據就可以了。這些經過匿名化處理的數據,既能被用來做出有用的分析,又不會侵犯到病人的隱私。
之後,我還在人民日報官方微博上看到過每日發佈的“疫情速報”,這些帖子以短平快的方式發佈最新疫情。但這些數據仍然是碎片化的,無法幫助我係統全面地瞭解疫情全貌。
1月24日,我在北京市衞健委的官方微博“首都健康”上,找到了一張表格,展示了有關病人情況的一些基本數據。但這只是當日的新增病例數據,而不是每一天的數據,數據仍然不夠完整。
社會化機構發佈的疫情數據
1月24日,我在手機上看到了由醫學知識共享網站“丁香園”和澎湃新聞 “美數課”欄目製作的全國疫情數據,這些數據的呈現,相較於政府網站要系統、直觀和清晰很多。
▲微信公眾號“丁香園”,1月24日截圖
▲澎湃新聞“美數課”欄目,1月24日截圖
▲澎湃新聞“美數課”欄目,1月24日截圖
為採集和整理這些數據並進行符合受眾需要的製作,這些社會化機構一定花了不少時間和精力。然而,由於政府發佈的數據具有碎片化、不完整、顆粒度低等特點,它們的數據展現方式雖然已經非常不錯,但在展現內容上仍然無法提供出更全更細的數據。
香港特區政府衞生署網站數據
有鑑於此,我來到了香港特別行政區政府衞生署的網站。在這個網站的首頁上,我在第一排的顯眼位置就看到了“嚴重新型傳染性病源體呼吸系統病”的版塊。
點進這個版塊之後,在頁面第一行的位置看到“本地最新情況”這條內容,點開後跳出了下面這份表格。
在這份表格上,可以看到每一位疑似病人的急診日期、性別、年齡、報告來源、醫院名稱、化驗結果、患者狀況。表格結構清晰,字段豐富,內容詳細,便於公眾解讀和分析利用。從表上能看到,經過化驗,絕大部分疑似病人感染的並不是武漢的新型肺炎病毒,而是其他病毒,這些詳情都一一列明瞭,令人信服。
同時,這張表格上還有多個細節值得關注。
首先,在發佈病人基本信息的同時,去除了患者的具體姓名,保護了個人信息。
其次,在發佈當日新增數據的同時,還在後面列出了之前發佈的累計數據,並將當日數據和歷史數據用白色和陰影兩種顏色區分開來。這樣公眾就不用再去“爬樓”, 把之前發佈的一個個表格下載下來再整合起來了。就這一個貼心的舉手之勞,就給用户帶來很大的便利。
第三,特別需要關注的一個細節是,在表格之後還附上了“備註”,對數據採集的背景方法和呈現方式進行了詳細説明。不要小看這個備註,這能幫助公眾更準確地理解和使用表格中的數據,避免誤解和誤用。
樸素乾淨的一張表,卻填滿了細節和温度,體現了背後真正的用户視角和數據思維。
唯一的小遺憾是,這些數據還是以PDF的格式發佈的,還需要人工做一下轉換處理後才能直接利用。PDF格式便於閲讀,不易被修改,但不便機器讀取,以進行加工利用。如果能在PDF格式之外,還能提供機器可以讀取的excel或csv等格式,就更加便於專業研究者用户進行分析利用了。
政府數據開放的基本原則
暢想一下,如果類似“丁香園”這樣的社會化機構也能得到這樣的疫情數據,它們能開發出來的可視化應用會更全更細,給用户帶來更好的體驗。而且,它們也不再需要花費大量的時間精力去搜集整理各種碎片化的、不符合標準格式的政府數據,而是可以集中精力將數據可視化應用做得更直觀更生動。
在這個過程中,政府作為數據的供給側把數據開放出來,市場上的專業組織作為數據的利用者把數據開發成各種應用,然後一起為社會公眾提供信息服務。政府和市場實際上以數據為原料實現了一種協同治理,便於共同應對疫情。
此外,將數據平等、無歧視地開放出來,讓不同的社會化機構都可以對這些數據進行開發利用,可能還會做出比“丁香園”等更好的應用。這些機構之間還可以實現良性競爭,以最大限度有利於用户。這其中一個關鍵是,政府是否把完整的、準確的、及時的數據,以便於利用的格式提供給了利用者。否則“丁香園”之類機構即使手再巧,也難為無米之炊。
而這正是數據開放和信息公開的一個重要區別。政府信息公開的主要目標是保障公眾的知情權,提高政府透明度,而政府數據開放則不僅要讓社會知情,還要讓社會能對政府數據進行開發利用,從而釋放數據的能量,創造社會和經濟價值。
目前,在各國的政府數據開放實踐中,開放數據通常呈現為以電子化、結構化、可機讀格式開放的數據集。數據集是指由數據組成的集合,通常以表格形式出現,每一列代表一個特定變量,每一行則代表一個樣本單位,這樣的形式更便於數據利用者進行開發利用。
為推動數據的開放和利用,2007年,一羣開放數據倡導者提出了政府數據開放的八項基本原則:
第一,完整。除非涉及國家安全、商業機密、個人隱私或其他特別限制,所有的政府數據都應開放,以開放為原則,不開放為例外。
第二,一手。開放從源頭採集到的一手數據,儘可能保持數據的高顆粒度,而不是開放被修改或加工過的數據。
第三,及時。數據儘可能以最快速度發佈,以保持數據的價值。
第四,可獲取。儘可能地拓寬開放數據的用户範圍和利用目的。
第五,可機讀。對數據進行合理的結構化處理,使之可被計算機自動處理。
第六,非歧視性。數據對所有人都平等開放,無需登記。
第七,非專屬性。數據以非專屬格式存在,從而使任何實體都不能獨佔和排他。
第八,免授權。數據不受版權、專利、商標或貿易秘密規則的約束,除非有合理的隱私、安全和特別限制。
目前,該標準已被國際開放數據領域廣泛接受。
面對疫情的政府數據開放當大有作為
面對疫情,公眾只有掌握了充分的信息,才能做出更理性的決定,採取更有利的行動。有量化研究表明,媒體的報道量增加十倍,傳染病的感染數將會減少33.5%。在互聯網和社交媒體已如此發達的數字社會,公眾如果不能及時獲得來自政府的權威數據,而只能在網上看到各種真真假假的小道消息,只會增加他們的恐慌感。
因此,讓公眾在疫情初期就能獲得充分的信息,從而加強自我防護,減少出行聚會,有利於政府防控疫情。反之,片面地以避免社會恐慌為出發點,採取“外鬆內緊”的策略,即政府雖然在內部努力防控,但卻沒有將疫情信息充分告知社會,會造成公眾在不知情的情況下,繼續毫無防護地四處遊走,最終反而助長疫情的傳播。
進入大數據時代,社會公眾的信息需求也發生了變化。面對疫情,公眾想知道的不僅僅是自我防護知識、官方疫情通報、相關政策通知,還想獲得權威的、完整的、一手的、準確的、及時的數據。顯然,目前各級政府相關部門在各個渠道上發佈的碎片化的、不連續的、不完整的數據,還不能滿足公眾的數據需求。
傳統的信息公開主要以非結構化的、文本的形式提供,而在大數據時代,公眾希望能獲得結構化的、可機讀的數據,便於其理解和加工利用。政府數據開放由此走上前台,將開放的對象推進到了信息的底層——數據層。
而且,防控疫情也不能只靠政府一方來孤軍奮戰,還需要整個社會的充分參與。政府將自己掌握的疫情數據作為一種基本的原料開放給社會,然後社會力量可以將這些數據開發成各種應用,更好地滿足公眾的數據需求。最終,政府和社會之間可以實現協同治理,控制疫情,讓廣大民眾受惠於大數據帶來的便利。
近年來,我國中央和地方層面已出台了多項有關公共數據開放的政策法規。2017年2月,中央全面深化改革領導小組第三十二次審議通過了《關於推進公共信息資源開放的若干意見》,要求推進公共信息資源開放,促進信息惠民,着力推進重點領域公共信息資源開放,釋放經濟價值和社會效應。2018年1月,中央網信辦等多部委聯合印發了《公共信息資源開放試點工作方案》,確定在北京、上海、浙江、福建、貴州開展公共信息資源開放試點,並要求試點地區着力提高開放數據質量、促進社會化利用,探索建立制度規範。
2019年8月,上海市政府第61次常務會議審議通過了我國第一部專門針對公共數據開放的地方政府規章《上海市公共數據開放暫行辦法》。該辦法要求上海市各級公共管理和服務機構向社會提供具備原始性、可機器讀取、可供社會化再利用的公共數據集。
近年來,我國的政府數據開放工作也正在穩步推進。根據復旦大學數字與移動治理實驗室近期發佈的《中國地方政府數據開放報告(2019年下半年)》,自上海市於2012年6月上線了我國第一個地方政府數據開放平台後,截至2019年下半年,我國內地已有102個地級以上的地方政府推出了數據開放平台,國家公共數據開放平台也將於近期上線。
然而,當前的政府數據開放仍然面臨着很多挑戰和難點問題。例如,政府數據開放,在字段和顆粒度上做到多細才合適?怎樣開放數據才能既滿足公眾知情權,有利於社會對數據進行開發利用,又能維護社會安定和個人隱私?怎樣防止數據在開放後被人濫用,以保護公共利益和第三方利益?如何才能在數據開放利用全過程的事前、事中、事後各個階段既促進數據利用,又加強安全防護?如何面向不同人羣,針對不同類型的數據,以不同的方式分級分類地開放?這些問題都還需要各地各級政府進一步探索和研究。
無論如何,面對疫情,政府數據開放還有很大空間可以作為。
鄭磊,復旦大學國際關係與公共事務學院教授、數字與移動治理實驗室主任。
作者:鄭磊
版權:版權歸原作者及其原創平台所有;