華科教授:艾滋病毒與新冠的蜜汁相似!_風聞
今天敲钟人不来-2020-04-20 21:18
來源 | 中國生物技術網
撰文 | 薛宇(華中科大生命科學與技術學院教授)
今兒得按慣例,上來先囉嗦個幾句。2月5日上午我在寫這篇博文,剛寫了一小半看見朋友們在轉Dr. James Lyons-Weiler的博文,當時評估了一下重要性,感覺James的博文誤導性更大,所以先寫了篇《新冠病毒不是源自實驗室》來駁斥,貼出去之後就在琢磨,James為什麼會出錯,不會真的是BLAST用錯了吧?因為BLAST的不同程序,用起來有那麼一點點小區別,如果用錯有可能就掉坑裏去了。第二天早上起來一試,暈,還真是BLAST用得不對,所以趕緊又補了篇《關於“新冠病毒不是源自實驗室”的科普》,把這個問題講清楚。James用錯BLAST這個問題,事實上國內外生信學者看出來的不少,我貼出第二篇博文之後,發現很多朋友之前就已經察覺了。話説BLAST的使用其實沒什麼技術含量,James碰到的問題,我做生信十幾年來從來沒有遇到一次,當然這個問題肯定是要收錄到教案裏,例如今年給學生們講《生物信息學》這門課的時候,就有了典型案例來講解BLAST不同程序如果用錯可能會出什麼問題。
今兒廢話不多,我們講正事。昨天上午有朋友轉來一則新聞,法國有位諾獎獲得者宣稱新冠是人造的,到中午的時候就發現饒毅老師寫了帖子出來批這位諾獎得主的説法“有很強的欺騙性”,其人“從事偽科學多年”。這裏面有兩個問題,第一,這位諾獎得主是不是在胡説八道?第二,此人是否真的從事偽科學多年?
我們先討論第一個問題,先説結論,那就是這位諾獎得主的確在胡説八道。這位諾獎得主是法國著名的病毒學家呂克·蒙塔尼(Luc Montagnier),1983年與團隊成員、女科學家Françoise Barré-Sinoussi首次報道了一種從患者體內分離出的新病毒,即艾滋病病毒(HIV),2008年兩人因HIV的發現獲頒諾貝爾生理學和醫學獎。1984年,美國科學家Robert Gallo也獨立發現了HIV,當時命名為HTLV,後來發現其實就是HIV。這個諾獎有一點點爭議,因為1982年的時候Robert Gallo首先提出艾滋病的病因可能是一種逆轉錄病毒,後來他也分離了很多HIV的毒株,結合血檢實錘HIV是的確是艾滋病的病因。當然,呂克·蒙塔尼首次報道HIV的分離,這個沒有爭議,雖然Robert沒有拿諾獎,但他自己説“呂克和我是共同發現”。
呂克·蒙塔尼認為新冠病毒是人造的,他的理論依據是什麼?是印度學者之前的一項未經同行評議的論文。2020年1月31日,印度理工大學和德里大學的科研工作者在生物預印本網站上貼出一篇文章,題目為《新冠病毒Spike蛋白中獨特插入與艾滋病毒gp120和Gag的蜜汁相似》(Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag,文章顯示已撤回)。文章題目裏的“Uncanny”,意為“神秘的、可怕的、怪異的,或危險的”,因此翻譯成“蜜汁”是精確的。根據百度百科的信息,印度理工大學“被稱為印度‘科學皇冠上的瑰寶’,是印度最頂尖的工程教育與研究機構”,德里大學“在印度的高等學府中,是地位最高、影響最大的大學”,因此這倆湊合在一起,大約就相當於印度版的清華和北大合一起在線貼了篇文章。據史料記載,這可能是有史以來清北被黑得最慘的一次。
這篇文章的主要工作,是通過序列比對,發現新冠病毒的長釘蛋白(Spike)序列,具有4個獨特的、非典病毒SARS中不存在的插入片段(Insert)(見下圖)。通過結構模擬,推測這4個片段可能是受體結合位點的組成部分。這4個片段與艾滋病毒HIV-1的gp120和Gag的蛋白質序列存在相同或相似的部分,因此長釘蛋白和gp120/Gag之間存在“驚人的關係”(an astonishing relation)。這篇文章貼出來之後,立即被學者批駁,其中一篇是美國德克薩斯大學埃爾帕索分校Chuan Xiao和美國杜克大學Feng Gao正式發表的論文,題為**《HIV-1 did not contribute to the 2019-nCoV genome》**(HIV對新冠基因組沒有貢獻);另一篇是結構信息學領域頂級學者、美國密歇根大學張陽教授課題組在BioRxiv網站貼出的文章,駁斥三哥的荒謬觀點。另外,張老師去年和我校的兩個研究團隊合作,從微生物組大數據中發現新的蛋白質結構,這項工作入選2019年度“中國生物信息學十大應用”。
在三哥的文章裏,三哥的文章,問題在哪裏?三哥認為新冠的4個獨特插入可能來源於艾滋病毒,這個説法對不對?如果不對,那這4個獨特插入從哪兒來的?新冠的4個獨特插入為什麼會與艾滋病毒的蛋白質序列有相似性?我們先放最後一個問題的答案,那就是:
“純屬巧合”(Randomly matched)
要理解這個問題,我們需要一點點概率論的知識。考慮兩枚硬幣,我拿起一個擲出來個正面,問理論上你平均擲多少次也能和我一樣擲出個正面?這個問題很好理解,硬幣有正面和反面,各有50%的概率會出現,所以理論上你隨機擲兩次,“預期”會有一次是正面。再考慮四枚硬幣,我拿起兩枚硬幣,第一次擲出正面,第二次擲出背面,問理論上你平均擲多少次也能得到第一次正面第二次背面的結果?這個也很好理解,第一次擲出正面的概率是0.5,第二次擲出背面的概率是0.5,所以隨機擲出一正二背的概率就是0.5*0.5=0.25,因此理論上你要隨機擲4次,使得概率P=0.25*4=1。假如我們把硬幣換成20面體的色子,數字從1到20,我擲出一個數字比方説15,那理論上你平均擲20次能得到一次數字為15的面。如果兩枚20面體的色字,我第一次擲出來15,第二次擲出來7,那理論上你平均需要隨機擲20*20=400次,才能得到一次我這樣的結果。如果你隨機擲了400次,我們把每一次擲出的數字記錄下來,按先後排序,這就是隨機序列(Random sequence)。
我們知道常見的氨基酸有20種,這樣可以類比成20面體的色字,每個面上標一種氨基酸名稱,投擲若干次,記錄下每次得到的結果,按先後排序就成了隨機得到的蛋白質序列。這樣,對於三哥講的第一個插入“TNGTKR”,我們可以計算,當隨機產生的另一條序列長度為20*20*20*20*20*20=64,000,000時,我們預期可以看到一個能夠與這個插入完美匹配的片段。我們從公共數據庫UniProt上下載人類蛋白質組數據集,總共包括20,607蛋白質序列,寫個簡單的Perl代碼就可以算出來總長度為12,952,278個氨基酸,這個數字大約是6400萬的1/5,所以瞎貓碰死耗子沒準在人類基因組裏也能搜到類似的片段。所以我們利用Expasy的BLAST工具(注意,又是BLAST哦)將TNGTKR片段在人類蛋白質組裏檢索,果然發現有一個完全相同的片段,來源於人類組織相容性複合物II型抗原蛋白質中(下圖A)。同理,對於第二個插入“HKNNKS”,理論上隨機序列長度為6400萬個氨基酸的時候,應該也能隨機匹配上一個片段,但是這次我們在人類蛋白質組裏沒有找到,反而是在小鼠裏找到一個完美匹配(下圖B)。按照類似的方法,我們可以發現第三條插入“RSYLTPGDSSSG”可以在大腹園蛛中找到相似度較高的片段(下圖C),而第四條插入“QTNSPRRA”則可以在雜色麴黴中找到完全相同的匹配片段(下圖D)。這裏需要注意,第三條插入在數據庫中找不到完美匹配,最主要的原因是片段比較長,有12個氨基酸,這就需要隨機序列總長為20^12=4,096,000,000,000,000的時候,理論上才可以找到一條完美匹配的序列。但無論如何大腹園蛛中找到的片段,與新冠第三條插入的相似性,要比HIV裏的高。
這樣,我們就很容易講清楚**,第一,新冠的4個插入在其他物種裏也能找到相同或者高度相似的片段,**有沒有可能是某個三哥捐獻給新冠的呢?有沒有可能是小鼠的片段跑到新冠裏面去的呢?不能是蜘蛛爬到新冠裏面嗎?或者是長黴了?都沒有可能。這就是隨機匹配的結果,也就是純屬巧合;**第二,這4個插入與艾滋病毒的序列有一定的相似性,自然也是純屬巧合;第三,這4個插入哪兒來的?答:自然變異(Natural variation)。**病毒是不斷演化的嘛,演化的過程中自然產生突變,那就有嘍,跟人造沒有一毛錢的關係。
所以,三哥的文章,問題就在於數學沒學好。《概率論和數理統計》這門課是大學裏比較基礎的課程,一般大二的學生都上過。當然嘍,我沒有想明白印度版的清華和北大究竟有沒有開設過類似的課程。由此看來,山寨跟原版還是很有差距的。三哥的這篇文章,從根兒上就錯了,這樣呂克·蒙塔尼的理論基礎就崩潰了,那自然他的説法就是胡説八道了。
本篇絮絮叨叨講了這麼長,那就先講到這裏吧,**關於呂克·蒙塔尼是不是多年從事偽科學,我們先講結論:是的。**具體內容只能下篇再談了。
(完)