生命科學領域,正在經歷一場由數字技術推動的大變革。其中,數字孿生模型(digital twin)是實體對象的精確虛擬模型,屬于最新一代技術變革的先鋒。
數字孿生生命即對生命精準建模,能夠顯著提升人們對復雜生物系統的理解和干預能力,有潛力應用于細胞工廠設計、工業發酵條件優化、藥物開發以及個性化診療等。
清華大學深圳國際研究生院的助理教授李斐然長期致力于生命數字化研究,她通過整合 AI 和系統生物學等方法開發前沿性的數字生命框架,從微生物建模到更為復雜的人類細胞建模,已經在理解細胞代謝、指導細胞工廠設計等合成生物學領域多個下游任務以及醫療健康領域取得了多項研究成果。
憑借在生命數字化的研究以及開發了首個深度學習預測酶參數的方法,李斐然入選 2023 年度《麻省理工科技評論》中國區“35 歲以下科技創新 35 人”。
圖 | 李斐然博士
李斐然博士畢業于瑞典查爾姆斯理工大學生物及生物工程系,師從中國工程院外籍院士 Jens Nielsen 教授,并在該實驗室完成博士后研究。目前的研究重點集中在數字生命模型的研究以及轉化應用上,包括開發及分析微生物、哺乳動物細胞、器官及人體的代謝模型或調控模型,探索細胞代謝暗物質并促進新途徑及新酶挖掘,以及開發深度學習模型助力理解蛋白序列-功能-參數關系。

專注于數字細胞,以 AI+機理雙核驅動構建代謝模型
小時候,李斐然熱衷于閱讀科幻小說,比方說《三體》、《鏡子》和《沙丘》等等,這在她心底埋下了探索未來科技無限可能的種子。“從那時起,我對虛擬世界產生了濃厚的興趣,憧憬著利用新技術將科幻小說中的描述變為現實。這些經歷培養了我的好奇心和探索精神,也讓我在后續的科學研究中具備了更加開放的思維和創新的能力。”李斐然回憶道。
本科階段,李斐然的研究方向是生物化工和合成生物學,主要通過改造微生物菌株提高產量。然而,在改造菌株的過程中,她發現基因過表達或敲除等方法無法按預期那樣帶來理想的改造效果。“這讓我萌生了一個想法,是否能夠通過構建數學模型預測菌株體內的變化、改造后的效果,從而提高改造成功率,更理性地指導微生物改造。”
此后,李斐然開始專注于數字細胞(數字生命)項目,并系統學習建模和分析微生物代謝,建模目標也從微生物擴展到人類細胞。2017 年,她加入瑞典查爾姆斯理工大學 Jens Nielsen 院士團隊,致力于提升數字生命模型的模擬精度以及擴大模型模擬范圍,從偏解釋性的模型轉向預測性模型。
(來源:EPFL)
此前,微生物代謝建模主要以機理模型為主,這是一種根據對象、生產過程的內部機制或者物質流的傳遞機理建立起來的精確數學模型。此類模型通常需要對生物系統有深入的理解才能清晰地描述和預測其行為,如果對不完全了解的生物過程建模,構建準確的機理模型就會受限,預測效果也會不盡如人意。
“彼時,正值人工智能大放異彩。AI 和深度學習模型在預測性能上具有優勢,AI 的可預測性能非常強,不過解釋性欠佳,而機理模型的可解釋性非常強。因此,我們決定嘗試將這兩種模型的優勢結合起來,并提出了機理模型 +人工智能雙核驅動的模型框架想法。這一框架結合了機理模型的可解釋性和深度學習模型的可預測性,我們可以從已知生命過程到未知生命過程全面建模,模型可同時具有可預測性和可解釋性。”
基于上述雙核驅動理念,針對數字生命模型構建中酶參數實驗測量緩慢的瓶頸,李斐然開發了首個深度學習預測酶活性參數的方法 -DLKcat。該模型只需輸入酶的底物信息和序列即可預測其活性,可用于任意物種酶活的預測,加速推進理解蛋白序列-結構-功能關系,有潛力成為酶工程改造和設計領域一個非常實用的通用預測工具。既可以更精確理解和預測復雜的生物系統行為,也可以為設計和優化高效的細胞工廠提供了更多可能性。
酶元件是合成生物學領域里面最關鍵的元件之一。據李斐然透露,這項研究發表之后引發了酶參數預測的熱潮,并入選了 Nature Catalysis 中“Machine Learning in Catalysis”的專欄十二篇焦點論文。
(來源:Nature Catalysis)
后續,基于該深度學習方法,李斐然構建了超大規模的開源酶數據庫 GotEnzymes,該數據庫包含了超過兩千萬個酶-底物對的酶活參數。公開資料顯示,該數據庫是目前主流 BRENDA 和 SabioRK 數據庫所收錄的酶活實驗測量數據的 1500 多倍。

已構建多個模型,正在推進轉化工作
加入清華大學深圳國際研究生院之后,李斐然建立獨立實驗室繼續構建數字孿生模型,并將這些模型應用于合成生物學和醫藥健康領域。研究團隊針對這兩類場景精確建模,主要開發圍繞真核生物構建兩類模型,一類是真核微生物模型,另一類是人體模型。
針對真核微生物建模,計劃在細胞工廠設計等應用中實現全鏈條的設計過程,顯著提高設計過程的效率,同時降低時間和成本;針對人體不同器官和組織建模,旨在模擬物質和能量在不同器官之間的交換過程,從而為個性化健康管理和治療提出相應建議。
據李斐然介紹,目前的工作主要是基于代謝模型,這是研究團隊的起點,然后從代謝網絡擴展到蛋白翻譯、轉錄、修飾以及蛋白相關功能等調控網絡模型。最新發表的研究包括釀酒酵母基因組尺度代謝模型、釀酒酵母蛋白分泌模型、人類基因組尺度代謝模型。其中,已經構建了超 300 多種酵母菌屬的模型,超 1000 多個工業應用釀酒酵母模型,以及針對不同人群近 20 多個器官構建人體模型。
2022 年,李斐然提出了稱之為 pcSecYeast 復雜蛋白質分泌模型,該模型涵蓋的反應數從 4000 個增長至 37000 個,包含了蛋白質如何在細胞中合成和修飾為成熟形式的詳細過程。該模型成功預測了蛋白細胞工廠的系統改造靶點,為理性改造靶點和設計細胞工廠提供了新方法,可用于生產工業或藥物蛋白質。
(來源:Nature Communications)
另一方面,該團隊還在通過機理 +AI 雙驅動構建綜合性的數字孿生人類模型,已經針對 5 種人群建立了數字孿生人類代謝模型,涵蓋了從嬰兒到老年人的不同階段,包括嬰幼兒、成年男性、成年女性和老年人群。“我們的目標是揭示不同人群在藥物組合代謝和食物代謝方面的差異。未來,我們希望不僅僅限于人群層面,而是針對每個個體進行個性化建模。例如,如果每個人都可以進行全外顯子測序或基因組測序,為每個人構建個性化的數字孿生模型,服務于其健康管理和個性化治療需求。”
據李斐然透露,已經在同步推進這些模型的轉化應用工作,重點是加速酶參數預測模型服務于酶工業領域,提高酶改造和從頭設計的準確性。另一方面,未來計劃與測序公司或健康管理公司等合作,建立全機體數字人類模型,并結合基因組測序為個體建立數字模型,將這些數字孿生人類模型應用于健康管理、個性化食譜推薦以及生活方式建議等應用中。
“基礎研究就像是培育孩子一樣,我們希望看到研究工作能夠真正應用起來,推動產業界變革,甚至改變現有的模式。深圳作為一個飛速發展的地方,提供了豐富的機遇,我們希望能夠看到實驗室的前沿技術被更多產業界接受和應用。”

“推動模型實現質的飛躍”
基因組代謝模型是一類系統描述細胞代謝的數學模型,能夠模擬基因組信息和代謝表型之間的關系,這為代謝相關的實驗數據提供了解釋框架,也讓全細胞代謝模擬實驗變得更簡單。
自 1999 年世界上第一個基因組代謝網絡模型流感嗜血桿菌模型被構建以來,目前全球已經構建了數以千計物種的基因組代謝網絡模型。據統計,截至 2019 年已有超過 6000 個基因組代謝網絡模型被構建,且這些模型已經被廣泛應用于生物制造和生命健康等領域,包括系統生物學、代謝工程、藥物開發、酶功能預測等等。
來源:Applied Microbiology and BiotechnologyAims and scopeSubm
“從整個基因組規模代謝網絡模型的發展來看,模型已經在數量上實現了飛躍。早期階段,由于缺乏相關知識,構建一個模型需要花費很長的時間。而隨著大數據、AI 和自動化模型構建工具的出現,構建模型日益變得更加容易。”李斐然說,她在碩士 3 年構建了一個原核生物的模型,而到了博士階段得益于技術的進步,共計構建了 1700 個模型。
李斐然繼續補充道,過去近 30 年來,生命模型在數量上取得了飛躍,且已經展示了一些非常突出的應用。然而,我們認為還遠遠不夠,整個領域其實還處于比較早期的階段。迄今為止,建模仍然依賴著類似于 20 多年前的方法,領域內還沒有出現比較革命性的突破,相對于復雜的生物系統,目前的模型質量能夠模擬的現象和進行的預測也相對有限。因此,我們現在需要從量變到質變,朝著質的飛躍邁進,整合人工智能和數字孿生等先進技術推動模型進步,朝著更精準和更具預測性的方向發展。
參考鏈接:
https://www.nature.com/articles/s41929-022-00798-z
https://www.nature.com/articles/s41467-022-30689-7
https://link.springer.com/article/10.1007/s00253-022-12066-y





京公網安備 11011402013531號