日本説中國高引用論文超過美國,怎麼回事? | 科技袁人_風聞
风云之声-风云之声官方账号-2022-10-08 21:39
導言:
高被引論文不是單純的比數量,而是在保證高質量的前提下比數量。如果有人還要嘟嘟囔囔一些老生常談,如“中國的論文都是灌水的”,那隻能説他連高被引論文這個詞是什麼意思都沒有理解,處於沒有腦子的復讀機的狀態。
■ 西瓜****視頻:
https://www.ixigua.com/7145283194856669731
本視頻發佈於2022年9月20日,觀看量達10.8w
■ 精彩呈現:
最近,有一則消息引起了關注和不解:中國在高引用論文的數量上超過美國,成為世界第一。這個消息來自日本文部科學省8月初發布的《科學技術指標2022》(https://news.ifeng.com/c/8INEiqQgT2Z),然後《Science》也為此發表了一篇報道(中國首次超越美國登頂科研影響力榜首)。




這個新聞引起關注是理所當然的,因為所有人都會關心世界各國尤其是中美兩國的科技實力對比。它引起不解也是理所當然的,因為它似乎來得太快了。我以前多次介紹過科學文獻計量學指標(從2020年最新定量指標看中國的科技實力 | 袁嵐峯),如自然指數、研究前沿指數、高引用研究者等等,一般的結果都是美國第一,中國第二,中國在快速追趕美國。在一些指標上,如發表論文數,中國已經超過了美國。不過人們很容易説,這種指標重量不重質。如果要看質量,比如説高引用的論文數,中國就排在美國後面了。

這種格局我已經很熟悉了。沒想到日本直接拋出一箇中國成為第一的指標,而且這不是個無關緊要的指標或者重量不重質的指標,而是個核心的質量指標,這就很讓人吃驚了。究竟發生了什麼?其實首當其衝的問題是,日本這個報告對指標的定義是什麼?數據來源是什麼?
實際上,日本這個報告説的是,由於各年的數據波動巨大,取三年的平均,這次的統計時間窗口是2018年至2020年,把這三年的平均值稱為2019年數據。首先來看頂尖論文,即各個領域被引用次數排名前1%的論文。在這三年的平均中,中國的頂尖論文有4744篇,佔全世界的27.2%,超過了美國的4330篇和24.9%,更高於第三名英國的5.5%。再來看引用前10%的論文,中國也處於第一,佔全世界的26.6%,超過美國的21.1%。相對於去年的數據24.8%和22.9%,中國的領先優勢正在擴大。至於總的論文數,中國早就是世界第一,而且領先得越來越多。在這次的報告中是407181篇對美國的293434篇,多了10萬篇,拉大了去年的報告中8萬篇的差距。





日本的數據來源是什麼?它自稱是來自科技情報公司科睿唯安(Clarivate)的數據。科睿唯安我們很熟悉,就是提供Web of Science等著名科學文獻數據庫的那個公司。然而直接去查Web of Science就會發現,定性結果不對:2018年至2020年,美國的SCI論文總數是178.6萬篇,高被引論文(即過去10年中發表的論文,被引頻次在同年同學科發表的論文中進入全球前1%)是22000篇,熱點論文(即過去2年中所發表的論文,在最近兩個月中其被引頻次排在同年同學科前0.1%的論文)是578篇,而中國的這三個數據是152.5萬篇、20079篇和469篇。每一個都跟美國很接近,但每一個都比美國低一些。所以,日本是怎麼得出中國高於美國的結論的?


通過朋友介紹,我聯繫到了科睿唯安的一位工作人員,她也是我的一位熱情粉絲。她告訴我,日本這項調查是基於自然科學領域的論文進行統計的,在標準化產品Web of Science和InCites中不能復現。前者可以查自然科學領域的各國總論文數、被引前1%論文數,但不能查被引前10%。後者被引前1%和10%都可以查,但不能單獨查自然科學,只能把自然科學和社會人文放在一起查(即SCI加上SSCI和AHCI)。因此,日本文部省應該是調用了Web of Science的底層數據,做了個性化統計。

聽了她的介紹,我有些理解了。日本可能是定義了一套特別的標準,如只挑選了某些學科,或調整了時間點,按照這樣的標準統計出來中國變得高於美國了。他們這樣做的目的是什麼,就可以自由理解了。可能是製造中美競爭的氣氛,可能是製造焦慮感。因為無論以什麼標準來排,日本都遠遠排在中美后面。在他們這個報告中,日本前1%引用的論文數只排在第12位,甚至低於韓國,比十年前的第六位大幅下降。如果站在日本人的角度上,不憂心忡忡是不可能的。

前面説的都是2018年至2020年的三年平均,如果看2021年的數據會怎麼樣呢?Web of Science顯示,在2021年,中國的SCI論文有70萬篇,高被引論文有9080篇,熱點論文有931篇,美國的相應數據分別是63萬篇、7332篇和938篇。在2021年,中國的高被引論文確實就比美國高了!由此可見,無論用什麼樣的統計,得到的都會是同樣的趨勢,不同的算法只是把中國超越美國的時間提前或者推遲幾年。


最後,關於這些數據的意義,我想任何有思考的人都應該能認識到,高被引論文不是單純的比數量,而是在保證高質量的前提下比數量。如果有人還要嘟嘟囔囔一些老生常談,如“中國的論文都是灌水的”,那隻能説他連高被引論文這個詞是什麼意思都沒有理解,處於沒有腦子的復讀機的狀態。

我以前在介紹科技指標的時候,就寫過很多答客問,早已預見到並且回答了這種問題。任何人如果認真研究了這些數據,思考了這些問題,就能明白什麼叫做世界大勢。