郭鋭、陳凱華:構建自主體系對抗數據主權威脅
作者:郭锐 陈凯华
近期,美國國立衞生研究院(NIH)突然禁止了中國研究人員訪問其部分關鍵數據庫,美國新興生物技術國家安全委員會也建議全面禁止與中國的生物技術與數據合作。這一系列舉措表明,美國對華科技打壓正迅速擴展至基礎性科學數據的掌控與利用,科學數據主權問題的戰略意義愈發凸顯。在當前日益複雜而緊張的國際形勢下,我國迫切需要加快推動自主可控的科學數據生態體系建設,以保障國家科研安全、實現自主創新能力跨越式提升。
當下,科學數據庫已成為科研範式與科技競爭的關鍵領域。近年來,以大數據和人工智能驅動的科研智能(AI for Sciences,AI4S)迅速興起,科學研究範式正在經歷從“實驗驅動”到“數據驅動”的重大轉變,高質量、開放共享的科學數據庫成為科研創新、提升科技競爭力的戰略制高點。國際主要國家愈發重視科學數據庫建設在基礎研究發展中的支柱性作用,通過推動系列舉措不斷加強科學數據庫建設,如德國科學基金會支持設立的國家研究數據基礎設施。目前,國際已形成了The Material Project,PubMed等多個標準化、高質量的科學數據庫,為其引領新一輪科研範式變革和科技競爭提供有效保障。
總的來看,國際科技強國的科學數據庫建設經驗主要包括五個方面:一是堅持開源開放原則,促進數據廣泛驗證和跨學科合作;二是發揮政府引導和支撐作用,通過政策支持和資源投入保障數據庫建設與共享;三是通過專業機構實現數據的標準化管理和規範化運行;四是強化多主體協作,推動跨學科、跨國界的科學數據庫融合共建;五是持續動態更新數據資源和技術服務,以快速響應科研智能發展需求。
就我國而言,目前我國已建成以20個國家科學數據中心和31個國家資源庫為重要基礎的科技資源共享平台,但從總體看,科學數據資源開放性、綜合性與國際領先水平仍存在一定差距。一方面,由於部分科學數據庫建成時間尚短,如2019年才陸續成立的國家科學數據中心,數據匯聚質量不高、開放共享程度低,造成數據使用效率和價值發揮受限。另一方面,當前的科學數據管理仍呈現“條塊分割”局面,部分數據中心分散於不同機構和領域,標準化管理與協作機制不足,沒有很好地形成良好的互補和互動,制約了數據的高效利用。
為有效支撐科技自立自強戰略目標,我國建設自主可控的科學數據生態體系意義重大。首先,這有助於打造可信數據空間,形成支撐科研智能發展的協同合力,助推國家戰略科研項目高效開展,避免關鍵數據被國際政治風險“卡脖子”。其次,這將有助於充分挖掘和激發我國豐富的科學數據資源潛力,強化本土情境下科研智能發展以及支撐基礎研究高質量發展的底層根基;最後,通過提升數據治理能力和資源掌控水平,我國科學數據話語權和國際科技競爭力將得到有效提升,為維護國家科技主權安全、實現科技自立自強提供堅實的數據基礎。
為應對日益嚴峻的國際科技競爭和數據主權挑戰,我國亟需從國家層面構建自主可控、高質量的科學數據生態體系,具體路徑包括:
第一,加強戰略規劃和基礎設施建設。可將科學數據建設納入基礎研究和科技創新戰略高度,加大資金投入,建設國家級人工智能與高性能計算雲平台,提供強大存儲、計算與分析基礎設施,形成穩定的戰略性科學數據儲備。
第二,實施分級分類的開源共享制度。針對不同學科領域的科學數據,可設立差異化的開放共享標準,鼓勵基礎性、結果性數據高水平開放,形成跨學科跨領域的數據匯聚機制,通過激勵措施推動數據向國家科學數據中心等關鍵節點匯聚,迅速實現規模效應。
第三,構建標準化、專業化的數據管理體系。可設立專業管理機構,負責科學數據的標準制定、質量控制與長期維護,推進跨學科數據標準化,建立動態評估機制,即時追蹤數據建設的難點痛點,加大對高迫切性數據庫的投資力度,保障數據資源的高質量與長期可持續性。
第四,強化數據建設激勵與數據安全機制。有關機構應明確科學數據的產權、使用權及運營權,建立全生命週期的數據溯源和保護機制,通過科研項目管理和科研人員考核評價體系,將科學數據庫建設成果納入評價和激勵體系,激發科學家的建設積極性,形成有效的數據生態體系。
第五,推進科學數據與產業應用深度融合。可以以產業需求為導向,搭建科學數據與產業場景緊密對接的平台生態體系,推動科學數據成果在智能製造、新能源、生物醫藥等產業領域的高效應用,實現科研智能技術效能的放大效應,推動國家整體科技競爭力的躍升。(作者分別是北京理工大學副教授,中國科學院大學公共政策與管理學院特聘教授)