我是科學家:新型冠狀病毒包含艾滋病毒序列?是科學家蓄意改造的嗎?
【文/ Nekout】
1月31日,來自印度理工學院的某科研團隊,在美國冷泉港實驗室旗下的BioRxiv預印本(不是正規學術期刊)平台上傳(不是發表)了一篇關於新型冠狀病毒2019-nCoV的文章[1],引發了廣泛的關注。

BioRxiv預印本是啥?

首先要提一句,BioRxiv是個旨在為科學家們提供更快速的文章公開渠道的平台。通常,發表在正規學術期刊上的論文需要經歷投稿、初審、完善數據、二次評審等複雜而坎坷的流程。這一過程消耗的時間往往是以月甚至是年來計算。
但有時重要的科學數據等不及漫長的審稿,為了保障時效性,就有了BioRxiv預印本這樣的不需要任何審稿過程的預印本平台。任何人任何單位做的任何內容的研究都可以上傳到此平台,於是,這個平台上的很多文章都不正規,沒經過同行評議和廣泛認可。那些上傳了預印本卻未能在正規學術期刊上發表的文章,大多都有着致命的問題。我們今天要討論討論的這篇印度論文也不例外。
這篇文章研究了啥?
讓我們來看看文章到底講了些什麼。
首先,作者精心“挑選”了一系列冠狀病毒的基因組序列,建立的系統進化樹,發現新型冠狀病毒和SARS病毒親緣關係最近。

系統進化樹解析:軟件根據基因序列的一致性進行聚類,一致性越高,那麼兩者間分支的數量就越少,説明親緣關係越近。反之則越遠,作者指出2019-nCoV和SARS病毒親緣關係最近 | 參考文獻[1]
於是,他們用這次新型冠狀病毒的刺突糖蛋白(Spike glycoprotein)序列和SARS病毒的同源蛋白進行了一下比對。然後發現2019-nCoV的刺突糖蛋白比SARS病毒的同源蛋白上多出來了4個獨立的短肽段(6-12個氨基酸左右)。作者由此指出,多出來的4個短肽段是2019-nCoV獨有的,其他冠狀病毒沒有。

蛋白序列比對解析:數字代表蛋白質中氨基酸的排列序號,每個字母代表一種氨基酸。例如M=甲硫氨酸,F=苯丙氨酸等。每大行中有三小行,第一行是新型冠狀病毒2019-nCoV,第二行是SARS,第三行是他們之間的一致序列。其中標記為紅色的部分説明兩者的刺突糖蛋白在這些位置的氨基酸完全一致;藍色的部分就是不同的;而“----”代表缺失的。可以看到2019-nCoV的刺突糖蛋白在標記的Insert1-4的位置確實比SARS的刺突糖蛋白多了一些肽段 | 參考文獻[1]
為了找到這些肽段的來源,作者又在數據庫裏搜索了一番——什麼?這些多出來的短肽段竟然和HIV-1中的gp120和Gag蛋白高度相似。作者認為這一切並非偶然,通過一些結構模擬,他們猜測這些多出來的短肽段可能對新型冠狀病毒與其受體的結合有關。

Insert1和2均可與HIV-1的gp120的部分肽段完全100%匹配。而insert3和4則分別與HIV-1的gp120和gag蛋白有不完全的匹配 | 參考文獻[1]
接着,作者含沙射影地將論點往人為操作的方向引導。例如,該文的圖3的圖注原文説:
“Modelled homo-trimer spike glycoprotein of 2019-nCoV virus. The inserts from HIV envelop protein are shown with colored beads, present at the binding site of the protein.”
翻譯過來的意思是:
“新型冠狀病毒病毒刺突糖蛋白的同源三聚體結構模擬。我們用幾種不同的顏色分別標記了那些來自HIV包膜蛋白的短肽段”。
作者故意用了“from”一詞讓人錯以為這些短肽段好像是由HIV嫁接過來的一樣。

圖 | 參考文獻[1]
該文在網絡上公開之後引發了眾人的各種臆想和猜測。有人説,這是中國病毒研究的切爾諾貝利,還有人説這是美國改造病毒的陰謀。

這篇未經同行評議的文章,被當成正經論文在網絡上放大宣傳
這些論調都基於論文觀點正確的前提下衍生出來的。
但事實上,這篇文章無論在研究方法還是邏輯上都犯了致命的錯誤,甚至完全經不起推敲。
問題1 以偏概全脱離事實
作者在文章開篇建立的系統進化樹可以説異常粗糙。在建立進化樹時選擇的數據越少,其推導出的結論可信度就越低。作者為了得出自己的觀點,挑選了一些不同來源的冠狀病毒數據:例如,蝙蝠、兔子、豬、駱駝、家禽,以及2003年的SARS病毒和2014年的MERS病毒來進行聚類分析。

圖 | 參考文獻[1]
從作者的進化樹不難看出,新型冠狀病毒和SARS的親緣關係最近,和蝙蝠來源的冠狀病毒反而還有點遠。
這一結果與近期我國多位科研工作者所給出的研究結論相悖。我們找到了與這篇論文同一天刊登在《科學》雜誌上的一張系統進化樹,其中的關鍵數據就是我國著名病毒學家——石正麗的科研團隊貢獻的。

圖 | 參考文獻[2]
這張圖中引用的數據更多,其結論也更加清晰明瞭。我們可以清楚地看到幾個大分支,首先SARS和來自果子狸的SZ3分離株同源度最高,處於同一分支,它們又和一些蝙蝠來源的冠狀病毒相似度較高,附屬於一個更大的分支內。由此我們可以推斷這個病毒傳播途徑是蝙蝠→果子狸→人。這次的武漢新型冠狀病毒和來自蝙蝠的RaTG13分離株的同源度最高,處於另一分支內。兩者儘管相似,但大概率具有不同的進化和傳播途徑。目前由於時間短暫,缺乏更多測序數據,尚無法確定蝙蝠和人之間是否還有中間宿主。
而來自印度的作者無視了RaTG13這個分離株的數據。堅稱自己發現的4個短肽段的是武漢新型冠狀病毒特有的(暗示人為加入)。事實上,我們在來自蝙蝠糞便的RaTG13病毒分離株的刺突糖蛋白上也能找到這4個短肽段,或完全一致或高度相似。説明新型冠狀病毒的這些肽段早就天然存在。作者的論點不攻自破。

比對結果顯示,來自蝙蝠糞便的RaTG13病毒蛋白中也能找到文章中提到的4個短肽段,或完全一致或高度相似 | Nekout
問題2 欲加之罪何患無辭
這篇文章的另一個關鍵論點,是這4個短肽段和HIV的蛋白上一些肽段高度同源。然而這一論點同樣“不小心”忽略了一些數據。
下面這個網站是生物學界最權威的序列比對工具BLAST,有了它,就可以足不出户訪問世界上最全的生物學序列數據庫,比對任何序列數據。
我們把1號肽段的6個氨基酸放進查詢序列框內,然後直接點擊頁面底部的BLAST按鈕。

我們會發現,許多蛋白都具有這段6個氨基酸的序列,全都是100%的一致性。它們分別來自不同物種的不同蛋白,從哺乳動物到細菌都有,可能翻完一整頁都看不到HIV的信息。

包括細菌和魚類等很多物種都有這個序列,而作者偏偏“別有用心”地選出了HIV。
那麼我們再縮小一下搜索範圍,把物種限定在HIV裏找尋一次,看看效果如何。

嗯。確實能在HIV上找到具有100%一致性的肽段。

以上這些説明了什麼呢?
我們打個比方幫助你理解:假設你寫了一段話發表在網上,有好事者想證明你的話是抄來的。怎麼證明呢?他從你的句子裏挑出“我快無聊死了”6個字扔進搜索欄,同時輸入某明星的名字,發現完全一致,然後就説你的話是從明星那兒搬來的。但事實上,幾乎所有人都在網絡上説過相同的話,並不單單是某明星的專屬。
蛋白質序列和文字一樣,序列越短,隨機出現在各個物種的概率就越高,拿6個片段比對出的結果和“我快無聊死了”一樣,是沒有任何意義的。
説到這裏你應該能體會到該論文的荒誕之處了吧。
問題3 牽強附會故弄玄虛
另外,文章的作者一直在引導大家把新型冠狀病毒和HIV病毒聯繫在一起,實際上這兩種病毒的感染方式截然不同。
病毒感染的第一步是和細胞上的受體間特異性結合。HIV的常見受體蛋白是人免疫細胞上的表面抗原分化簇4受體蛋白(CD4蛋白)。人體只有部分免疫細胞會合成這個受體蛋白,沒有這個受體的細胞很難被感染。而且HIV無法感染除了人以外的其他動物。想在小鼠或其他實驗動物中研究HIV的感染過程,首先需要通過轉基因技術將人的CD4蛋白轉入小鼠的免疫細胞中,否則研究無法進行。

HIV感染細胞的示意圖
而2019-nCoV的刺突糖蛋白所結合的受體是血管緊張素轉化酶2(ACE2),它在很多黏膜組織細胞中都廣泛存在的,這使得它能通過呼吸道及其他黏膜進行傳播。
可見,這是兩種井水不犯河水的病毒,受體和感染過程都有天壤之別,作者僅從幾個的零星的肽段就推斷2019-nCoV從HIV那裏獲得了“超能力”,實屬天方夜譚。
這篇文章上傳後,已經飽受來自世界各國科學家的質疑和批評,作者自己也表示會根據大家的意見重新修改文章,避免帶來更多誤解。


國內外著名科學家紛紛對這篇不靠譜的論文提出批評
所以,這篇文章根本就是一個鬧劇。希望大家擦亮雙眼,對這類湊熱鬧不嫌事大的報道提高警惕,莫被陰謀論誤導。
參考資料:
[1] https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1
[2] https://www.sciencemag.org/news/2020/01/mining-coronavirus-genomes-clues-outbreak-s-origins
(本文原載於微信公眾號“我是科學家iScientist”,觀察者網已獲授權轉載。)
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。