本文刊載于《》2024年第5期 “專刊:建設世界科技強國——努力搶占科技制高點”
江海平1,2 高純純3 劉文豪1,2 楊運桂3 李鑫1,2*
1 中國科學院動物研究所
2 北京干細胞與再生醫學研究院
3 國家生物信息中心
一、生物數據推動生命科學發展階段的演變
在過去的幾個世紀中,生命科學一直處于快速發展和演變的階段,從最初對生命現象的簡單觀察和描述,到如今分子生物學、基因組學和系統生物學等領域的興起,生命科學研究范式持續演變。這種研究范式的變化深受生物數據類型和規模的發展所推動,并帶來了生命科學發展演進的3個階段(圖1)——每個階段不斷遞進,并涌現出新的技術和方法來快速推動生命科學研究的不斷進步。
圖1 生物數據發展和生命科學階段性發展
第1階段(16世紀——20世紀下半葉):以觀察總結和假設驅動為主,實驗數據作為輔助支持和驗證依據。在早期,生物學家主要依靠手工實驗和觀察描述獲取數據,并從中提煉歸納出一些假說。但這些數據通常是表面的、局部的、有限的,產生的假說也是宏觀和粗略的,無法對生命的深層機制進行解析。其原因在于認知水平和技術的限制導致無法獲得和解析更深層次的生物學數據。這一時期生命科學研究的典型代表有:16世紀的安德烈·維薩里通過動物和人體的解剖數據全面認識機體結構;19世紀,達爾文通過環球考察采集和分析大量標本數據提出進化論等。其后,隨著物理學、化學等學科的發展,以及實驗技術和分析方法的快速進步,尤其是DNA雙螺旋結構的發現和中心法則的提出,將生命科學研究引入分子生物學時代。生物學家可以將復雜的生命系統拆解為微觀的分子和細胞組分并逐個進行研究,以獲得對生物系統單一維度、深層次的描述數據。研究人員通常采用被動分析的方法,即根據事先提出的假設來遍歷和解釋實驗數據,此時形成的是對生命系統深入卻零散、片面的認知。
第2階段(20世紀下半葉—21世紀初):以組學數據為基礎,結合生物信息學分析和實驗驗證。測序技術的出現和“人類基因組計劃”的實施將生命科學引入了高通量生物數據研究時代。基因組學、轉錄組學、表觀組學、糖組學等多種組學技術呈現了細胞在不同層面的整體生命圖景。生物學家能夠在早期發育、癌癥、衰老、疾病等多個生命過程中進行高通量、大規模的數據采集。此時,他們不再局限于驗證特定的假設,而是通過多種組學數據來探索未知領域。多組學數據的分析需要更復雜的計算工具和算法,包括生物信息學、統計學等。這些工具和方法幫助研究人員從海量數據中發現隱藏的模式和關聯,從而獲得更全面、更深入的生物學知識。另外,使用生物信息學對組學數據分析獲得的知識還需要使用濕實驗進行驗證。盡管這一階段能夠對生物學數據進行低維度的描述和解釋,卻難以對復雜的生命系統進行高維度模擬,以實現對生命的全面系統解析。
第3階段(21世紀初至今):以生物大數據驅動,使用人工智能和干濕融合對生命系統進行解析與重構。生命系統呈現分子、細胞、組織、個體等多層次的結構,并且這些層次之間高度互聯、動態調控,形成了一個復雜的系統;而由此獲得的數據也具有多層次、動態變化的特點。此外,隨著生命科學研究的不斷深入,海量的多組學數據、文獻資料和其他生物學數據持續涌現和積累,從而導致數據規模和復雜性進一步增加。這種多類型、多維度且體量巨大的生物學數據被稱為生物大數據。然而,傳統的數據分析方法已經無法滿足生物大數據的處理需求。針對不同層次、不同維度、不同類型的生物大數據進行有效整合、匯集和深入分析,以揭示其中蘊含的高維度生物規律,成為當今生命科學研究面臨的挑戰之一。人工智能,尤其是神經網絡模型通過其多層結構,可以從復雜的、高維度數的數據中提取出簡化的、具有代表性的低維度特征,捕捉了數據中重要的模式和規律,成為高維生物大數據的有效工具。例如,AlphaFold能夠預測蛋白質的三維結構,GeneCompass等工具實現了基因調控網絡規律解析,并支持多種生命過程的精準分析及細胞命運狀態的變化預測。這些工具和技術證明了使用人工智能可以挖掘生物大數據中數據之間的關聯,抽提生命的內在結構,從而更全面地理解生命現象的本質和規律,揭示生物體內部復雜的互動關系和調控機制。然而,當前人工智能技術對生物數據類型的有效整合仍然存在較大限制。要實現對復雜互聯的生命系統進行全面、系統和深刻的認知,需要積累更多的系統性生物大數據,并運用人工智能技術對多模態的生物大數據進行有效整合,以實現對生命系統整體圖景的認知。而且,人工智能指導的自動化機器人已經實現了在化學和材料學上自主設計、規劃和執行真實世界的實驗,從而顯著提高了科學發現的速度和數量,并改善了實驗結果的可復制性和可靠性。未來使用生物大數據訓練的人工智能結合自動化機器人,將可能建立干濕融合的自進化研究新范式,以實現對更復雜的生命系統進行更高效和更深入的解析。
綜上,生物學數據推動生命科學發展經歷了從觀察總結和假設驅動為主,組學數據為基礎到生物大數據驅動的3個遞進階段。在這個過程中,生物學數據呈現規模遞增、類型豐富和層次加深的特點,也推動了對生命本質的認知從對生命系統宏觀總結、生命元件深入認知、生命系統全面低維度描述到生命系統解析和重構的不斷深入。
二、數據驅動生命科學研究的內涵和特點
數據驅動生命科學研究的內涵體現在其對研究范式、方法論和認知模式的深刻影響上。
① 強調了以數據為核心的研究方法,將數據的采集和分析置于中心位置。這意味著研究者不再僅依賴于個別案例或局部現象,而是通過收集大規模、多樣化的生物學數據來推動研究的發展。
② 數據驅動的生命科學研究具有跨學科性和整合性的特點。隨著技術的發展和數據的積累,生命科學的研究越來越需要跨越不同學科領域,如生物學、計算機科學、統計學等,進行數據的整合和分析。
③ 數據驅動的生命科學研究著重于量化生物現象,并試圖將其系統化地理解。傳統的生物學研究往往是基于定性觀察和描述,而數據驅動的方法則更加注重通過數據收集、處理和分析,建立生物系統的量化模型。這種量化和系統化的方法使得研究者能夠更全面地理解生命系統的復雜性,并從中發現隱藏的規律和關聯。
④ 數據驅動的生命科學研究強調實驗數據與數字化建模的結合。通過收集大量的實驗數據,并運用數學模型和計算方法進行數字化建模,進行高通量、高準確度地預測和篩選,從而可以高效驗證和修正生物學理論,并提出新的假設和預測。這種濕實驗與數字化建模結合的研究方式使得生命科學研究更加系統和深入,推動了生物學知識的不斷進步。
數據驅動生命科學研究的特征具有3項顯著性特點。
① 生物學數據具有多樣性和豐富性的特點。生物數據涵蓋了生物系統的各個層次和多個方面——從基因組序列到蛋白質結構,再到細胞功能和生物表型,生物學數據包含了豐富的信息,為研究者提供了深入探索生命現象的基礎。
② 生物學數據具有高維度和大規模的特點。隨著技術的進步,生物學數據的維度和規模不斷增加。例如,基因組學和轉錄組學等高通量測序技術的出現,使得研究者能夠同時研究成千上萬個基因或基因表達物,從而獲得高維度的數據。這種高維度和大規模的數據為研究者提供了更全面的視角,使他們能夠發現更復雜的生物學規律。
③ 生物學數據往往具有動態性和時空特征。生物系統具有在不同時間和空間尺度上的變化。例如,轉錄組數據可以反映基因在不同發育階段或不同環境條件下的表達變化,蛋白質互作網絡數據可以揭示細胞內信號傳導的動態過程。這種動態性和時空特征使得研究者能夠更深入地理解生命系統的復雜性,并探索其調控機制和功能。
三、生物大數據組成和特點
大數據(Big Data)通常代表了大量、多樣、不斷變化且快速聚合屬性的巨型數據集,并且這些屬性過于復雜或“大”,無法通過傳統手段處理。而生物大數據在廣義上被定義為來源于或用于生物的海量數據。目前,比較常見的生物大數據類型包括:
① 研究類型數據,如基因組、蛋白質組、轉錄組、糖組等多種組學測序數據,以及成像數據、藥物研發和臨床試驗數據等;
② 電子健康數據,如電子醫療檔案、可移動/穿戴設備采集的實時監控數據等;
③ 生物樣本庫,如生物多樣性資源庫、臨床樣本庫等;
④ 知識成果,如生物相關的文獻、專利、標準等。
生物大數據除了具備“大數據”的特點外,還具有明顯的生物學數據自身特性,即大容量(volume)、多樣化(variety)、高速(velocity)和有價值(value)的“4V”特點(圖2)。生物學研究技術和手段的快速發展推動了生物大數據的高速發展,使生物學研究從表面的點觀測進入全面和更深層次的圖像和數據解析。
圖2 生物大數據的組成和特點
四、技術發展推動生物大數據的產生
生物技術和信息技術的融合推動了生命科學從“假說驅動”向“數據驅動”的轉變,促進了生物大數據的爆發式增長、精準解析和生命科學的巨大進步。自從“人類基因組計劃”實施以來,測序技術得到了快速發展,引發了基因組、轉錄組、表觀遺傳組、蛋白質組、代謝組、糖組等多種組學數據急劇增加,同時也催生了生物技術與信息技術的融合,推動生命科學研究進入數據型科學發現的時代。
在生命科學的發展過程中,得益于測序技術的快速發展,組學類型的生物大數據增長尤為凸顯。自1977年Sanger第一代測序技術出現以來,第二代高通量測序技術、第三代單分子全長測序技術和第四代納米孔測序技術相繼涌現,廣泛應用于生物學各個領域,推動了生命科學研究的巨大進步。Sanger測序技術被用于細菌和噬菌體基因組的測序,但其1次只能分析1個測序反應,產量有限,時間花費長且成本高昂,導致“人類基因組計劃”耗時10多年才完成。自2004年以來,“下一代測序”(next-generation sequencing)技術的發展實現了高通量平行測序,大幅增加了測序數據的輸出量。第二代測序技術支持基因組、轉錄組和表觀遺傳組等多種組學測序,單次測序可以產生4億條讀段、120GB數據。第三代測序技術又被稱為“長讀段”測序,可以檢測全基因組重復和結構變異檢測,實時靶向讀取DNA分子。最新的第三代測序儀,平均讀長可達10—15kb,產生約36.5萬個讀段。第四代測序技術是基于納米孔系統的DNA測序技術,裝置小巧可達手持尺寸,超過100 kb的DNA可以穿過納米孔,通過許多通道,以相對較低的成本獲得數十到數百Gb的序列。測序技術的快速發展對基礎研究、臨床診斷治療等具有重要意義。隨著精準醫療概念的提出,電子健康記錄開始發展。盡管存在不適當訪問等潛在風險,但電子健康記錄的便攜性、準確性和即時性為精準醫療策略、醫療體系完善和智能療法篩選等提供了重要支持。
在生命科學研究中,信息技術和生物技術的規模化應用豐富了生物樣本庫的建設。伴隨著生物大數據的急劇增長,美國國立生物技術信息中心(NCBI)數據庫、歐洲生物信息學研究所(EBI)數據庫、日本DNA數據庫(DDBJ)和中國國家基因組數據中心等大數據庫中的數據類型不斷豐富,包括從多組學測序原始數據到表達信息矩陣,數據量從TB向PB甚至更高不斷增加,從而為生命科學領域的研究提供了豐富的數據資源。此外,生物大數據的發展也推動了知識成果的積累,促進了生物學數據相關文獻不斷提升和生物技術專利的快速更新迭代,極大地推動了生物領域的研究,有望給生物學和生物醫學研究領域帶來革命性的變化。
五、總結和未來展望
數據驅動的生命科學作為生物科學領域的重要趨勢,正面臨著海量生物大數據的包括數據存儲、傳輸、處理和分析等多個方面的挑戰。然而,通過不斷開發新的技術和方法,尤其是人工智能技術的發展,能夠更高效地整合和分析生物大數據,從而挖掘生物學內在規律,深入理解生物系統的復雜性。
未來,為實現對復雜生命系統更完美的模擬和解構,需從數據質量、處理算法、場景化等多方面進行優化。
① 應生產和獲取高質量系統性的生物大數據。當前的生物學數據雖然規模大、類型多,但數據來源各異、離散度高、偏差大,整體數據質量水平不高。而且生命系統是多層級的復雜系統,要將不同層級打通,需要如胚胎發育、疾病、癌癥、衰老等生命過程的多維度、多模態、時空對齊的高質量、系統性生物大數據,為人工智能提供可靠的數據基礎,減少噪聲和偏差的影響。
② 需開發生命適配的人工智能算法。生物大數據具有多維度、多層次、非結構化和動態變化的特點,當前人工智能算法難以有效處理。未來需要針對生物數據特點開發生命適配的人工智能算法,來更好捕捉復雜生命網絡中的結構和規律。
③ 增強模型的解釋性,揭示潛在的生物學機制也是未來重要的研究方向。
④ 整合生物學數據、利用人工智能技術以及自動化的高通量實驗和數據獲取技術。有望實現干濕融合的自進化模式,為生命科學研究帶來革命性范式革新。
江海平 中國科學院動物研究所博士后。主要研究領域:衰老、癌癥和人工智能。
李 鑫 中國科學院動物研究所研究員。主要研究領域:干細胞與再生、衰老及癌癥,人工智能與生物計算。
文章源自:
江海平, 高純純, 劉文豪, 等. 數據驅動的生命科學研究進展. , 2024, 39(5): 862-871. DOI:10.16418/j.issn.1000-3045.20240225003.





京公網安備 11011402013531號