泛基因組圖譜裏有哪些中國人的“專屬密碼”?這張“首繪”給你答案
None
北京時間6月14日23時,復旦大學、西安交通大學、中國醫學科學院等26家單位聯合完成的中國人羣泛基因組聯盟(CPC)一期研究進展,以《基於36個族羣的中國人泛基因組參考圖譜》為題發表於《自然》雜誌。這是我國學者領導的人羣基因組研究首次登上《自然》。

這項研究初步構建了我國人羣的泛基因組參考圖譜,揭示了中國人的基因組中隱藏着此前從未揭示過的基因序列。在重構人類演化歷程、找回複雜疾病研究“丟失的遺傳率”等研究和應用中,該圖譜具有巨大的潛在價值。目前,團隊正加速這一圖譜的實用性研究,將之推向臨牀疾病檢測尤其是精準醫學領域。
構建中國人羣泛基因組參考圖譜
泛基因組參考圖譜,簡言之,就是藉助數學中圖論的思想和計算技術,將人類多個族羣的代表性樣本、具有多樣性的基因序列以多維圖譜形式組裝起來,形成一個能充分反映種羣基因組結構變異多樣性的導航圖,從而指導進一步的遺傳學和醫學研究。
上世紀末的人類基因組計劃和曼哈頓計劃、阿波羅登月計劃,並列為人類科學研究的三大重大項目,並於2001年首次發佈了人類基因組草圖。但是,目前通用的人類參考基因組主要基於歐洲白人為主體樣本構建,尤其是因為當時樣本質量的原因,其中70%的數據來自同一個人。這一結果難以代表非歐裔族羣,尤其難以代表我國族羣的基因組多樣性。即便是最新發表的人類泛基因組國際聯盟(HPRC)收集了全球範圍的47例樣本,也僅包含3例中國漢族樣本。

作為人口大國,我國巨大的人口基數和豐富的人羣多樣性是發展人類基因組學和精準醫學的重要優勢:西南部高原地區分佈着眾多藏緬、南亞語系族羣,東西方人羣在西北部絲綢之路沿線交融,苗瑤語族人羣在雲貴地區世代繁衍,蒙古、突厥人羣曾遊牧於北部風沙地,通古斯語族抵抗嚴寒一路向北,台-卡岱(侗台)族羣的先輩亦曾穿梭於南方叢林河谷。
同時,悠久的人羣歷史、豐富的地理氣候環境,塑造了中華民族獨特的遺傳多樣性。構建能代表中華民族遺傳多樣性的中國人羣泛基因組圖譜,將極大提高捕獲罕見或低頻遺傳變異的靈敏度和準確性,支撐服務中國人遺傳多樣性研究、複雜疾病分子機制研究和精準醫學研究與應用。
新鑑定東亞人特有的百萬計的基因變異
為了構建高質量、高精度的中國人羣泛基因組參考圖譜,復旦大學徐書華教授、西安交通大學葉凱教授聯合國內26家單位發起了中國人羣泛基因組聯盟(CPC),旨在建立我國專屬參考基因組和泛基因組資源和分析體系,形成我國自主可控的人類基因組資源與核心技術,支撐精準醫學發展,服務“健康中國”戰略。
在第一期研究計劃中,CPC對代表中國36個族羣的58個樣本採用最新的基因組測序技術進行了深度測序,結合最新的單倍型基因組組裝方法,獲取了116個高質量單倍型基因組,並以圖基因組的方式構建了高質量中國人羣參考泛基因組。

CPC對我國族羣特異的複雜基因組結構變異解析示例
該泛基因組圖譜共包含約3.01Gb個鹼基對的序列信息,發現了在人類通用參考基因組上缺失的約1.9億個鹼基對的參考序列;新鑑定了東亞人特有的百萬計的點突變或小變異,以及3.4萬個結構變異,涉及大量潛在功能原件,包括至少1367個蛋白質編碼基因。其中,約500萬個鹼基對新序列存在於95%以上的單倍型中,被視為中國人羣基因組核心序列,並被認為可能與中國人羣特有的生物學功能或表型特徵相關。
為中國人羣精準醫療提供重要支撐
研究團隊還新發現了1079個基因拷貝數變異,包括大量在中國人羣中富集而在其他世界人羣中較為罕見的若干基因拷貝數變異;同時,新鑑定出富集在中心粒、端粒等染色體複雜區域的3.4萬個結構變異,其中半數以上僅在單個或兩個樣本中出現。這意味着若不針對中國豐富的族羣多樣性開展專門研究,將沒有機會發現這些遺傳變異。
研究人員進一步揭示,這些新發現的遺傳變異可能與亞洲人羣特有的某些疾病的易感性及表型多樣性有關。一個典型的例子是α-珠蛋白基因簇,研究人員在該基因區域鑑定出兩個中國人羣特異性的大規模結構變異,包括一段20kb的缺失序列和一段10kb的重複序列,這為進一步研究中國人羣貧血症的遺傳機理和致病機制提供新的線索。
圖形化泛基因組示例及CPC特有複雜變異分佈
這一圖譜構建有助於尋找複雜表型/疾病的遺傳學基礎。比如此次發現RASA4基因變異就與多種腫瘤有密切關係;PRSS基因與消化道疾病有關,尤其是與胰腺炎、胰腺癌密切相關。“再比如,參與25%的臨牀藥物代謝和清除的基因CYP2D6,在中國人羣和歐美羣的變異就有很大差異。”課題組成員徐書華介紹,“很多臨牀使用的藥物是基於歐美人的體質開發的,這一基因的變異就會對中國人使用歐美研發的藥物安全帶來潛在風險。同樣,此次研究發現,C4基因區域與精神分裂症密切相關,而對比西方人羣的基因圖譜,可以發現東西方的精神分裂症遺傳機制有可能存在顯著差異。”
構建中國人羣泛基因組圖譜還有助於發現“丟失的遺傳率”。所謂“丟失的遺傳率”是指部分疾病具有高遺傳性,但是傳統方法卻難以發現其遺傳基因。比如,精神分裂症的遺傳率是81%、孤獨症的遺傳率是80%,而身高的遺傳率在55%-90%之間,但是目前能夠發現的遺傳因素卻只能解釋20%左右的遺傳率,甚至大多在5%以下。徐書華解釋稱:“根據對中國人羣的泛基因圖譜的比較,將可以發現其遺傳基因,並且未來用於疾病的精準防治領域。”
研究人員還在CPC參考圖譜中發現了相當大比例的古人來源基因序列。“簡言之,這些新發現的源自古人的基因序列可能與一些關鍵的表型和功能有關,可能曾經促進了我國以及東亞人羣的適應性進化。”徐書華説,這或將為東亞現代人基因組中的古人基因滲入研究乃至整個古DNA領域提供新的信息資料和線索。
從1%到100%,中國生命科學研究的歷史性跨越
從在人類基因組計劃中,中國只承擔“1%”的圖譜繪製任務,到今天,中國人羣泛基因組圖譜“100%”由中國科學家完成,這項研究成果展現了中國生命科學尤其是基因組學科研水平在這40年間的歷史性跨越,為完整構建中華民族參考泛基因組打下堅實基礎,也為人類參考泛基因組圖譜繪製了“中國畫卷”。
作為論文共同作者之一,復旦大學校長、中科院院士金力表示,這一研究的發現反映了我們的基因組中可能仍有大片有價值的礦藏尚未得到充分開採。同時,基因組結構變異大概是生物進化中從微觀到宏觀演變的關鍵遺傳基礎,也是最有可能連接漸變到躍變這個“鴻溝”的進化密碼。“我相信,通過對基因組結構變異的高精度解析,不但能大幅提升‘基因型-表型’關聯分析的功效,還可能最終幫助我們理解生命演化中重要性狀和功能產生的遺傳基礎和分子機制。”
中國人羣參考泛基因組不僅有助於中華民族共同體的遺傳學研究,加深人們對個體或羣體基因組的“異”與“同”更具象、更深度的認知,還將改變過去依賴主體基於歐洲白人的參考基因組而導致東亞特有罕見變異檢出精確度難以提升的困境,從而提高我國生物醫學數據分析的質量和效率,服務於人民生命健康。
復旦大學徐書華教授、西安交通大學葉凱教授、中國醫學科學院褚嘉祐教授和復旦大學陸豔副教授為論文的共同通訊作者。復旦大學博士後高揚,西安交通大學楊曉飛副教授,中國科學院上海營養與健康研究所博士生陳豪、譚昕江,中國醫學科學院楊昭慶研究員以及復旦大學鄧戀青年研究員為論文的並列第一作者。該論文共同作者包括復旦大學王寶楠、孔爽、李松洋、崔雨杭、雷暢、趙曉涵、史穎冰、楊子藝,中科院王亦民博士、潘雨聞博士、馬森博士,中國醫科院孫浩博士,中科院昆明動物所吳東東研究員,江蘇師範大學伍少遠教授,復旦大學趙興明教授,西安交大附屬醫院施秉銀教授,復旦大學金力教授,南京醫科大學胡志斌教授等。
(作者:姜澎)