阿里雲AI for science成果入選「中國生物信息學十大進展」,發現超16萬種病毒
3月28日消息,中科院旗下基因組蛋白質組與生物信息學報公佈了2024年度“中國生物信息學十大進展”,阿里雲、中山大學聯合研究成果入選。據介紹,該研究團隊使用AI算法,發現了180個病毒超羣和16萬餘種全新RNA病毒,將已知病毒種類擴充了近30倍,大幅提升了業界對RNA病毒多樣性和病毒演化歷史的認知。

基因組蛋白質組與生物信息學報(簡稱GPB)是由中國科學院主管、中國科學院北京基因組研究所(國家生物信息中心)與中國遺傳學會共同主辦的英文學術期刊,其評選的“中國生物信息學十大進展”,代表了中國研究團隊在基因組學、蛋白質組學、生物信息學等領域的重大成果。
在本次入選的研究成果“Using artificial intelligence to document the hidden RNA virosphere”中,阿里雲和中山大學研究團隊創新性將AI應用於病毒發現領域,提出了全新的深度學習模型"LucaProt",該模型基於Transformer架構,在病毒發現的準確率、效率及檢測病毒多樣性上均優於傳統方法,有效解決了缺乏同源性或同源性極低的“暗物質病毒”發現效率低的難題。
資料顯示,該研究團隊對來自全球生物環境樣本的10,487份數據進行病毒挖掘,發現了513,134條病毒基因組,代表161,979個潛在病毒種及180個RNA病毒超羣。實驗結果使RNA病毒超羣數量擴容約9倍,病毒種類增加約30倍,其中23個超羣是無法通過序列同源方法識別病毒圈“暗物質”。憑藉在病毒學領域取得的多項突破,該成果還登上國際頂級學術期刊《Cell》封面。

目前,LucaProt核心代碼及成果均已開源,全球研究機構和高校都可以直接使用該技術進行科學研究。阿里雲研究團隊表示,該研究不僅適用於RNA病毒的發現,未來還可以應用於其它類型蛋白質的鑑定和功能發現任務。
據介紹,阿里雲在生命科學領域已發表核酸和蛋白質統一基礎模型-LucaOne、RNA病毒發現-LucaProt、磷循環蛋白家族識別-LucaPCycle等多項研究成果。