提到病毒,大多數人首先會想到疾病和感染。但你可能不知道,我們每個人的基因組中都攜帶著大量遠古病毒的“化石”——它們占據了人類基因組的8%。這些被稱為內源性逆轉錄病毒的序列,是數百萬年前感染我們祖先的病毒留下的印記。
長期以來,科學家們認為這些序列只是基因組中的“垃圾”,沒有任何功能。然而,最新的研究改變了這一看法。中國科學院上海藥物研究所陳勛團隊聯合多個國際團隊的一項突破性研究發現,這些遠古病毒序列不僅不是“垃圾”,反而可能是調控人類基因表達的重要“開關”。
被誤解的“垃圾”DNA——科學認知的轉折
要理解本次發現的意義,我們需要先回到2000年,人類基因組計劃初步完成,科學家們第一次看到了人類遺傳密碼的全貌。令人驚訝的是,編碼蛋白質的基因只占基因組的不到2%,而剩下的98%被認為是沒有功能的“垃圾DNA”。
![]()
人類染色體的示意核型圖,展示了基于G顯帶技術的人類基因組概覽
(維基百科)
在經典的G顯帶核型圖(即通過吉姆薩染色技術呈現的染色體條帶圖譜)中,我們可以直觀地看到人類基因組的組成奧秘。圖中那些較暗的區域(DNA中鳥嘌呤和胞嘧啶堿基所占比例較少)和每條染色體中央狹窄的著絲粒(染色體中央的狹窄區域,在細胞分裂時起關鍵作用)區域,正是非編碼DNA的主要聚集地。其中,內源性逆轉錄病毒序列就是這些“垃圾”的重要組成部分。
與普通病毒不同,逆轉錄病毒有一個獨特的生命周期。它們攜帶的遺傳物質是RNA,但在感染細胞后,會利用一種叫“逆轉錄酶”的特殊蛋白質,將自己的RNA“反向轉錄”成DNA。這就像是把一份手寫的筆記(RNA)用打印機打印成標準文檔(DNA)。
更關鍵的是,這些新合成的病毒DNA會整合到宿主細胞的染色體中,成為宿主基因組的一部分。這個過程就像是把一段外來的文字永久地粘貼到一本書中。HIV(人類免疫缺陷病毒)就是現代最著名的逆轉錄病毒例子。
人類基因組中這些病毒序列的來源可以追溯到幾百萬年前。當時,一些逆轉錄病毒感染了我們的祖先,并將自己的遺傳物質整合到了宿主的基因組中。如果這種整合發生在生殖細胞中,病毒序列就會傳遞給后代。經過漫長的進化,這些病毒序列在突變和自然選擇的作用下,大多數失去了原有的感染能力,成為了基因組中看似無用的“化石”。
科學家們根據序列差異,將這些內源性逆轉錄病毒分為500多個亞家族,包括HERV-E、HERV-K、HERV-H等。每個完整的病毒序列通常包含三個核心基因(gag、pol、env)和兩端的長末端重復序列(LTRs)。但由于長期的進化,大多數序列已經支離破碎,看起來確實像是“垃圾”。
發現隱藏的寶藏——新方法帶來新認識
然而,科學的魅力就在于不斷挑戰既有認知。近年來,越來越多的證據表明,這些所謂的“垃圾”DNA可能具有重要功能。特別是病毒序列兩端的LTR區域,富含轉錄因子結合位點,可能作為基因調控元件影響鄰近基因的表達。
但要驗證這個假設面臨一個巨大的挑戰:由于這些病毒序列高度相似,就像同一本書的不同版本,傳統的基于序列相似性的注釋方法容易出錯——可能把同一家族的序列誤判為不同家族,或把不同家族的序列因局部相似而錯誤歸類。
在基因組學中,所謂“注釋”是指給DNA序列添加功能標簽和分類信息的過程,就像給圖書館里的書籍貼標簽分類一樣。對于內源性逆轉錄病毒序列,注釋就是標明每段序列屬于哪個病毒家族或亞家族(如HERV-K、MER11-A等)。而錯誤注釋就像把一本經典文學小說放到了科技書架上,導致研究者在研究某個病毒家族功能時找到的是錯誤分類的序列,使實驗結果混亂,無法得出正確結論。
為了解決這個問題,研究團隊開發了一種全新的注釋方法。這種方法不再單純依賴序列相似性,而是結合了系統發育分析——通過追蹤序列的進化歷史來進行分類。這就像通過家譜來確定親屬關系,而不是僅憑長相相似。
研究人員首先聚焦于76個進化上較年輕的內源性逆轉錄病毒亞家族。令人震驚的是,他們發現其中26個亞家族存在近三分之一的注釋錯誤。以MER11家族為例,原本被分為A、B、C三個亞家族,但新方法揭示了大量分類錯誤,并識別出了四個全新的亞家族:MER11_G1、G2、G3、G4,按照進化年齡從老到新排列。
![]()
基于進化的轉座子序列注釋新方法
(參考文獻[1])
從猴子到人:追蹤病毒序列的進化軌跡
有了準確的分類,研究人員開始探索這些序列的功能。他們采用了一種名為“大規模平行報告系統”(lentiMPRA)的尖端技術。利用該方法,他們就像是同時進行了成千上萬個實驗,一次性測試了7000多條來自人類、大猩猩和獼猴的MER11序列,看它們是否能夠調控基因表達。
實驗在人類干細胞和早期神經細胞中進行,結果令人振奮。研究發現,最年輕的MER11_G4亞家族表現出強大的基因調控活性。更有趣的是,這種調控能力與一組特殊的DNA序列有關——SOX轉錄因子結合位點。
SOX轉錄因子是一類重要的基因調控蛋白,在胚胎發育、干細胞維持等關鍵生物學過程中發揮作用。研究發現,在靈長類進化過程中,MER11_G4序列通過單個堿基的缺失,意外地創造出了新的SOX結合位點。這個微小的變化,卻帶來了巨大的功能影響——顯著增強了這些序列的調控活性。
更令人驚奇的是,這種進化在不同物種中呈現出不同的模式。人類和黑猩猩共有的一些MER11_G4序列獲得了獨特的突變,使它們在干細胞中具有更強的調控潛力。這意味著,這些遠古病毒序列可能參與了人類特有的基因調控網絡的形成。
![]()
不同物種的基因組規模
(維基百科)
單堿基的蝴蝶效應:微小變化的巨大影響
研究團隊在單堿基分辨率水平上分析了這些變化。他們發現,僅僅一個堿基的插入或缺失,就能決定一個序列是否具有調控功能。這就像密碼鎖,只要一個數字錯誤,就無法打開。但在進化的長河中,偶然的“錯誤”反而可能創造出新的功能。
以SOX結合位點為例,原始的MER11序列并不包含這個位點。但在靈長類進化過程中,一個堿基的缺失意外地形成了SOX蛋白的識別序列。這個變化發生在人類和大猩猩的共同祖先中,距今約800萬年。隨后,在人類和黑猩猩的演化過程中,這些序列又積累了更多的變化,進一步優化了它們的調控功能。
這種現象展示了進化的精妙之處:看似隨機的突變,在自然選擇的作用下,可能被保留并賦予新的功能。遠古病毒序列就這樣從“入侵者”變成了“合作者”,成為人類基因組調控網絡的一部分。
從基礎研究到醫學應用:打開新的大門
這項研究的意義遠不止于滿足科學好奇心。內源性逆轉錄病毒序列與多種人類疾病相關,包括癌癥、自身免疫疾病和神經退行性疾病。準確了解這些序列的功能,對于理解疾病機制和開發新療法至關重要。
例如,某些內源性逆轉錄病毒在腫瘤中異常激活,可能促進癌細胞的生長和轉移。如果我們能夠精確識別這些序列并理解它們的調控機制,就可能開發出新的癌癥治療策略。同樣,在自身免疫疾病中,某些病毒序列的激活可能觸發免疫反應,導致機體攻擊自身組織。而若能精準干預這些序列的異常表達,或許能為此類疾病的治療提供另一種思路。
此外,這項研究還為理解人類進化提供了新視角。人類與其他靈長類動物的基因組高度相似,但在認知能力、語言等方面存在巨大差異。這些差異的遺傳基礎一直是科學界的重大謎題。內源性逆轉錄病毒序列的物種特異性進化,可能是造成這些差異的重要因素之一。
研究團隊的下一步計劃是結合人工智能技術,全面解析內源性逆轉錄病毒的功能。通過機器學習算法,他們希望能夠預測哪些病毒序列具有調控功能,以及它們在不同細胞類型和發育階段的作用。這將為精準醫療和個性化治療提供新的靶點。
同時,這種基于進化的研究方法也可以應用于其他領域。例如,研究流感病毒的突變模式,預測下一次流感大流行的可能性;或者分析腫瘤細胞的進化,開發更有效的抗癌策略。
與病毒共舞的生命之歌
回顧生命演化的歷史,病毒與宿主的關系遠比我們想象的復雜。它們不僅是致病的“敵人”,也可能成為進化的“盟友”。內源性逆轉錄病毒序列就是這種復雜關系的見證——曾經的入侵者,如今成為我們基因組不可分割的一部分,甚至可能塑造了人類獨特的生物學特征。
這個發現也讓我們重新思考“自我”的定義。如果我們的基因組中8%來自遠古病毒,那么什么才是真正的“人類基因”?也許,正是這種基因的“混血”,造就了生命的多樣性和復雜性。
站在科學的前沿,我們看到的不是一個簡單的黑白世界。今天的“垃圾”DNA,明天可能就是治愈疾病的關鍵;今天的有害病毒,明天可能成為基因治療的工具。保持開放的心態,不斷探索未知,這正是科學精神的真諦。
在基因組這部生命之書中,每一個序列都可能隱藏著進化的秘密。內源性逆轉錄病毒的故事告訴我們:生命的復雜性遠超我們的想象,而探索這種復雜性的旅程,才剛剛開始。
參考文獻:
[1]Chen X, et al. A phylogenetic approach uncovers cryptic endogenous retrovirus subfamilies in the primate lineage. Science Advances, 2025.
出品:科普中國
作者:郭菲(煙臺大學)
監制:中國科普博覽
![]()





京公網安備 11011402013531號