《自然》雜誌研究：AI已能“洗稿”科研論文，併成功躲避學術期刊查重

赖家琪

2025-09-24

【文/觀察者網王一】英國《自然》雜誌網站9月23日報道稱，一項研究發現，生成式人工智能（AI）工具正被用於科研論文“洗稿”，撰寫出看似全新的“克隆版”研究，並已成功混入學術期刊。

這項9月12日發表在醫學預印本平台medRxiv上的研究顯示，研究人員對過去4年半內出版的112本期刊分析發現，這些期刊刊發的論文中有超過400篇論文經AI“洗稿”而成，並且證實它們足以繞過出版商的反抄襲檢測系統。

該研究的作者指出，這種趨勢背後很可能是個人投機者，甚至是代寫、出售論文署名的商業公司“論文工廠”在利用公開數據庫，藉助AI大語言模型大規模生產低質量、缺乏科學價值的論文。

“如果任由其發展，這種AI驅動的方法可能會被套用到所有開放數據庫上，製造出超乎想象數量的低質量論文，”沒有參與這項研究的瑞士弗裏堡大學藥理學家喬鮑·紹博（Csaba Szabó）警告稱，“這可能會打開潘多拉魔盒，學術文獻可能被‘合成論文’徹底淹沒。”

研究團隊對美國“國家健康與營養調查（NHANES）”數據庫進行了篩選，該數據庫體量龐大，涵蓋數千人的健康、飲食和生活方式數據。研究人員重點篩查“重複”研究，即那些重複探討相同變量之間關聯，只是換用了不同年份、不同性別或不同年齡段樣本數據的研究。

他們對公共醫療數據庫（PubMed）的檢索發現，2021年1月至2025年7月期間發表了411篇“重複”研究。其中大多數是簡單案例，涉及兩篇幾乎一模一樣的論文，但有3項涉及6篇重複論文的研究，其中一些甚至在同一年被多次發表。

參與研究的英國薩里大學生物醫學家馬特·斯皮克（Matt Spick）直言，這種情況“根本不該發生，對科研文獻毫無幫助”。

斯皮克和他的同事們懷疑，一些人可能也在用AI來繞過期刊的查重機制。為了驗證，研究團隊讓AI模型ChatGPT和Gemini改寫他們發現的3篇高度重複的研究論文，結合NHANES數據生成全新的稿件。

結果是，僅需2個小時的人工修正，這些AI稿件就能順利通過期刊常用的查重工具。當研究人員用大部分出版商使用的查重工具進行分析時，AI稿件的得分沒有達到被編輯認為有問題的水平。

“我們震驚於它幾乎立即奏效。”斯皮克指出，雖然AI生成的稿件確實存在一些錯誤，但其內容足以混淆視聽，這使得區分真正基於公共數據庫開展研究的學者和用AI故意製造論文的人變得更加困難。

英國愛丁堡大學公共衞生學者、《全球健康雜誌》聯合主編伊戈爾·魯丹（Igor Rudan）也認為，“這給編輯和出版商帶來了全新的挑戰”，“我們第一次嘗試大語言模型時就預料到這會成為一個問題，而這份研究證實了擔憂”。

早在7月，斯皮克就發出警告稱，基於NHANES等開放數據集的低質量“流水線論文”激增，背後可能就是AI推動的。而此次分析發現，2022年ChatGPT正式發佈後，重複研究的數量陡增。

美國斯坦福大學和其他機構的研究人員對論文預印本平台“arXiv”和“bioRxiv”的112萬餘篇論文分析發現，2020年至2024期間，計算機科學論文中使用AI大語言模型的比例高達22%。

這使得部分出版商被迫收緊政策。瑞士開放獲取學術出版社Frontiers和美國公共科學圖書館（PLOS）均宣佈對基於開放數據集的研究收緊編輯審查規則。

Frontiers研究誠信負責人埃琳娜·比卡里奧（Elena Vicario）坦言，AI驅動的重複研究對出版商構成了嚴峻、持續的挑戰。

該出版社在過去4年中發表了132篇被點名的重複論文，佔比32%。不過比卡里奧稱，這些都發生在新編輯規則出台前。今年5月以來，Frontiers已拒絕了1382篇基於NHANES的投稿。

全球知名科研出版機構施普林格·自然（Springer Nature）發表的重複論文比例更高，達到了37%。其旗下開放獲取學術期刊《科學報告》就刊發了51篇。

《科學報告》主編理查德·懷特（Richard White）回應説，“我們高度重視科研記錄的可靠性，所有被點名的論文都將被調查，我們採取必要措施”。他透露，自2024年初以來，《科學報告》已拒絕超過4500篇基於NHANES的投稿。

懷特補充説，該期刊編輯團隊的工作重點是，在清除不道德和無意義研究的同時，確保真正有價值的成果得以發表，“我們對不當使用這些數據庫感到擔憂，並且一直在採取行動”。

本文系觀察者網獨家稿件，未經授權，不得轉載。