美國生物醫藥數據庫對華“斷鏈” 中國科研人員呼籲開放原始數據_風聞
IT时报-《IT时报》官方账号-32分钟前

業內人士解構國內生態短板
作者/ IT時報記者 孫永會
編輯/ 錢立富 孫妍
當地時間4月15日,UK BioBank(英國生物藥學數據庫)在其官網發佈了一則名為《A message to our participants: why researchers in China can access our data》(《致各位參與者的一封信:為何中國的研究人員能夠獲取我們的數據》)的告示,從用途、用户反饋和代表人物的發言,表明了該數據庫在科研領域的重要性。該文還談道,目前全球60多個國家/地區的20000多名科學家正在使用該數據庫的數據進行健康和疾病研究。

UK BioBank之所以發文,和幾天前美國國家衞生研究院 (NIH)發出的一項通知密切相關。NIH在通知中稱,**從今年4月4日起,禁止包括中國在內的一些國家的科研機構訪問NIH受控訪問數據庫及其相關數據,包括頗負盛名的美國國家癌症研究所(NCI)旗下的SEER數據庫。**毫無疑問,這和4月8日正式實施的美國第14117號行政令密切相關。
SEER數據庫被禁止訪問的消息迅速在國內學術圈,尤其在生物醫藥學領域掀起波瀾。有媒體聲稱科研“冷戰”或將開始,關心中國科學家們該何去何從,也有不少人擔心其他地區的數據庫會跟進限制中國用户訪問。不過從UK BioBank的最新表態來看,這是個好消息。
但對中國科研機構而言,要想不被徹底“卡脖子”,必須練好“內功”,打破壁壘,積極推動科學數據共享和使用水平。

禁令投下陰影
項目研究遇阻
幾天前,李奕辰(化名)突然發現SEER數據庫禁止中國用户訪問。

他在德國海德堡大學讀醫學博士,4月5日上午,李奕辰登錄SEER數據庫時發現自己的賬號被提示“不存在”,於是發郵件詢問,很快就得到回覆。回覆內容中稱:“自 2025 年 4 月 4 日起,禁止特定國家的研究人員和機構,訪問任何涉及國家衞生研究院 CADRS 和相關數據正在進行中的項目,並將會終止這些項目。這些特定國家包括中國(含香港和澳門)、俄羅斯、伊朗、朝鮮、古巴和委內瑞拉。”

李奕辰收到的回覆郵件截圖被多家國內媒體轉載。李奕辰告訴《IT時報》記者,十一天後,他再次通過原來非機構郵箱註冊的賬號登錄,發現仍然無法使用,但他可以用學校賬號登錄。
SEER數據庫是全球癌症研究領域的核心資源,覆蓋美國48%人口的癌症病例數據,包含腫瘤分期、治療方案、生存率等關鍵信息。據媒體報道,過去數十年間,中國學者發表的癌症流行病學論文中,約75%依賴該數據庫。“我在社交平台上教學與SEER數據庫相關的內容已有三年,現在不能訪問,我的分享效果或許受到影響,國內本科生和碩士生也少了一個發論文的渠道。”李奕辰感慨道。
“對於生物信息學專業的人來説,簡直是暴擊。”在中國香港地區某高校從事科研工作的一位學者對《IT時報》記者説道。他也較早得知SEER數據庫禁止中國研究人員和機構訪問的消息。
“郵件大概的意思是,一些由NIH管理的數據庫要求我們在90天內完成所有工作,之後不可以再使用。數據庫被禁的話,部分課題就暫時開展不了了,感覺有點可惜。”他説,自****己所在團隊目前已經有2個項目因此中止。
的確,對於中國科研人員來説,被禁訪問SEER數據庫帶來了一定程度的影響。

數據資源建設長足進步
亟需突破“公開共享”之困
此次事件的潛在影響和背後原因值得關注與深思。
上述香港某所高校的學者認為,雖然中美之間在生物醫學方面的差距在縮小,但從全部領域來看,仍然存在較大差距。

圖源:unsplash
“當前99%的醫藥、醫療儀器和100%的數據庫,都不在我們本土,生物醫藥行業在這一塊遭遇的壓力要比科技領域芯片的壓力還大。”上海一位接近醫藥領域權威的人士感慨。這位人士對《IT時報》記者表示,所有原研藥的研發,都需要去國外的蛋白質數據庫裏進行比對分析。
對於數據庫層面被“卡脖子”的現象,我國早已關注,並採取了相關措施。
2004年起,我國先後在基礎科學、農業、林業、海洋、氣象、地震、地球系統科學、人口與健康8個領域支持建成了國家科技資源共享服務平台。到2018年3月,《科學數據管理辦法》正式發佈,科學數據開放共享上升為國家戰略。2019年中國科學院科學數據中心成立,同年,科技部更新了國家科技資源共享服務平台優化後的名單,含國家基因組數據中心、國家高能物理科學數據中心等二十個中心。
“需要辯證地看待這個問題。”作為二十個國家科學數據中心的一員,國家基礎學科公共科學數據中心主任胡良霖見證了這些數據中心的團隊在各自領域穩步推進科學數據的工作,數據資源總量、開放成效均取得長足進步。
然而,問題和短板也不容忽視。
胡良霖向《IT時報》記者坦言,當前的核心挑戰在於系統性生態的缺失,除了20個國家科學數據中心和中國科學院科學數據中心體系之外,國內長期系統關注科學數據發展的人並不多。一方面,科學數據領域仍處於“小團隊努力”階段,即便二十個國家科學數據中心的外向輻射也是有限的,距離全社會良性生態差距甚遠。2018年《科學數據管理辦法》出台後,從政策落地層面看,全國大概有三分之二的省市自治區發佈了地方實施細則,“但真正推動這些實施細則落地的,其實並不多,甚至個別地方至今仍然存在配套文件缺失的現象”。另一方面,數據資源分佈不均進一步制約了數據服務的全面性。
胡良霖還觀察到,國內教育界普遍習慣於使用國外數據庫,在很多高校圖書館網站上推介的多是國外數據庫產品。當前國家科學數據中心牽頭建設的不少本土數據產品已具備一定的國際競爭力,能夠滿足國內用户基本需求,但因缺乏用户參與,陷入“無人用—慢發展” 的循環。

超越“小團隊努力”
打破“假共享、真封閉”
2007年1月11日,圖靈獎得主吉姆·格雷在“科學方法的革命”的演講中將科學研究分為四類範式:實驗歸納、模型推演、仿真模擬和數據密集型科學發現。
當時他預測,未來世界上所有的科學文獻和科學數據將聯機,並且實現互操作。17天后,他駕駛帆船駛向大海,從此再沒回來。
吉姆·格雷沒能看到,他的預言在十八年後已部分成為現實:隨着海量數據成為新的科學研究基礎設施,構造基於數據的、開放協同的研究與創新模式,已是被科學研究者公認為最佳方式。目前來看,國內數據共享開放領域可謂機遇與挑戰並存,“假共享、真封閉”似乎成為業內人士的共識。
一位遺傳學教授接受《知識分子》採訪時表示,“現在各地方都號稱自己有數據庫,而且是公開的 ,但其實都不公開,主要是意識層面問題。就算在機構內部,共享也很難實現。假如一個科室很大,每個老師都有自己的小隊列,但彼此都沒有辦法拿到對方的。國外現在都是幾十萬的隊列,我們還一兩萬的隊列在做。”
胡良霖亦有相似看法,他們團隊在服務國家重點研發計劃科學數據匯交工作中的最大感受之一,就是“個別團隊不想交,以及個別團隊所交的數據質量不太理想”。一直以來,胡良霖和團隊竭力推動高質量數據工作,近期,國家基礎學科公共科學數據中心的門户上線了第一批用户好評數據集。
“我們數據要素推動得較為困難,根本原因之一,就是原始數據不開放。”對此,胡良霖首先呼籲開放原始數據,其次要推動“數據成果化”,可以將數據類比為署名權的一種成果進行認定。欣慰的是,伴隨近期中華人民共和國科學技術部發布關於公開徵求《國家科學技術獎勵條例實施細則(修訂草案徵求意見稿)》意見的通知,數據被正式認定為科技成果並納入國家最高科技獎勵體系,“數據成果化”有了一定程度上的進步。
**再者,胡良霖呼籲各地要重視數據共享與開放,否則不能夠解決根本問題。**最後,胡良霖呼籲建立清晰的安全清單,首當其衝的是界定保密數據、核心數據、重要數據的邊界,明確國內開放與國際開放的範圍。當前的主要障礙在於國家標準與執行落地層面之間存在“鴻溝”—— 缺乏具體數據開放能否開放的明確依據,導致機構因畏懼風險而“不敢開放數據”。
排版/ 季嘉穎
圖片/ 採訪對象 IT時報
來源/《IT時報》公眾號vittimes
E N D