一個胚胎從一團細胞變成有頭有尾、有器官有結構的生命體,中間到底發生了什么?這個問題已經困擾了發育生物學家一百多年。我們知道細胞會分裂、會移動、會折疊,但具體到某一個細胞在下一分鐘會做什么,是繼續老老實實貼著鄰居,還是突然折疊、分裂或者掙脫原有的連接?這類問題此前幾乎無法預測。
來自 MIT 團隊的一項研究有望改變這一局面。近期,他們在《自然·方法》(Nature Methods)期刊發表了一項名為 MultiCell 的幾何深度學習方法,首次實現了在單細胞分辨率下,逐分鐘預測果蠅胚胎發育過程中每一個細胞的行為變化。這項工作由 MIT 機械工程系副教授郭明(Ming Guo)、博士生 Haiqian Yang 以及來自密歇根大學和東北大學的合作者共同完成。
在測試中,該模型對約 5,000 個細胞的預測準確率達到了 90%,不僅能判斷某個細胞是否會發生特定行為,還能精確到“七分鐘后還是八分鐘后”這樣的時間粒度。
![]()
圖丨MultiCell 概覽(Nature Methods)
這聽起來似乎有點像 AlphaFold 預測蛋白質折疊,只不過視角從分子尺度切換到了細胞尺度。實際上,研究團隊在論文中也明確提到了這層類比:正如 AlphaFold 從氨基酸序列預測蛋白質三維結構那樣,MultiCell 試圖從細胞群落的幾何特征預測多細胞系統的自組織過程。不同的是,蛋白質折疊是一個相對“靜態”的目標,你最終得到一個穩定的結構;而胚胎發育是動態的、充滿時序演化的,細胞之間的互動關系也遠比蛋白質內部的化學鍵復雜得多。
在理解 MultiCell 解決了什么問題之前,我們先來了解一下過去的研究者是怎么建模多細胞系統的。
長久以來,研究者在建模多細胞系統時主要有兩種思路。一種是“顆粒視角”(granular perspective),把每個細胞簡化為空間中的一個點,關注它們的軌跡和堆積行為;另一種是“泡沫視角”(foam-like picture),把細胞看作緊密貼合的氣泡,強調細胞邊界的張力和連接關系,這種思路最早可以追溯到 1917 年達爾西·湯普森(D’Arcy Thompson)的經典著作《論生長與形態》。
兩種視角各有優勢,也各有局限:顆粒視角擅長捕捉細胞遷移和玻璃態動力學,但丟失了細胞形狀和連接的細節;泡沫視角保留了邊界信息,卻不容易整合細胞核位置、基因表達等與單個細胞相關的特征。
![]()
圖丨達爾西·湯普森(WikiPedia)
MultiCell 的核心設計是一個被稱為“雙圖”(dual-graph)的數據結構,將兩種視角統一起來。在這個框架中,細胞既是圖中的節點(nodes),也通過細胞間的鄰接關系構成邊(edges);同時,細胞頂點和細胞邊界又構成另一套圖結構。這樣一來,模型既能追蹤每個細胞的位置、面積、周長、曲率等幾何屬性,也能記錄相鄰細胞之間是否共享邊界、邊界長度如何變化。輸入特征還包括這些幾何量的變化率,用以捕捉動態信息。
在此基礎上,研究者采用多層消息傳遞機制的圖編碼器(graph encoder),比如多頭圖變換器層(multiheaded graph transformer layers),來聚合每個細胞周圍高度異質的鄰域信息,最終生成高維的隱藏狀態,再通過解碼器或池化操作輸出預測結果。
這套流程被應用于果蠅早期胚胎發育中最關鍵的階段之一:原腸胚形成(gastrulation)。在這個大約持續一小時的窗口里,原本表面光滑的橢球形胚胎會經歷劇烈的形態變化,細胞在分鐘級別的時間尺度上不斷重排。腹溝(ventral furrow)、頭溝(cephalic furrow)、后中腸內陷(posterior midgut invagination)等關鍵結構相繼出現。
研究團隊使用光片顯微鏡(light-sheet microscopy)拍攝的四維全胚胎數據進行訓練和測試,這些數據來自密歇根大學,具有亞微米級分辨率和較高的幀率,每個胚胎包含約 5,000 個被標注邊界和細胞核的細胞,這種數據在發育生物學領域相當稀缺。
模型在三個胚胎視頻上訓練后,被用于預測第四個全新胚胎的演化過程,測試時未來幀被完全遮蔽。結果顯示,模型在預測細胞連接丟失(junction loss)方面達到了約 90% 的準確率,在預測細胞是否會內陷、分裂或發生重排方面,與真實值的皮爾遜相關系數(Pearson correlation)分別達到 0.79、0.87 和 0.78。
![]()
圖丨同時預測內陷、分裂和重排發生的時間(Nature Method)
為了驗證模型學到的究竟是什么,研究者做了兩項額外分析。
一是神經激活圖(neural activation map)的可視化。在執行胚胎時序對齊任務時,研究者發現模型在訓練中自動識別出了腹溝、頭溝、后中腸等關鍵區域的特征,盡管它從未被明確告知這些解剖學標簽。有意思的是,模型甚至能在組織級折疊肉眼可見之前就“感知”到腹溝和后中腸區域的異常,這暗示著細胞幾何特征中隱藏著早于形態變化的前兆信號。
![]()
圖丨使用激活圖的可解釋幾何視頻序列對齊(Nature Method)
二是模型消融實驗(ablation study)。研究者分別移除細胞幾何、連接幾何和頂點幾何三類特征后重新訓練模型,發現單獨使用邊界長度信息只能達到 0.821 的 AUC(曲線下面積),加入變化率后提升到 0.869,但仍遠低于完整模型的 0.950。
這表明,細胞連接的丟失并非僅由局部邊界幾何決定,而是涉及更大范圍的空間模式——這一結論與無定形材料塑性流動的理論相吻合,即局部重排是雪崩式行為,受缺陷空間分布和應力再分配的復雜相互作用支配。
從方法論上看,MultiCell 的貢獻在于為介觀尺度(mesoscale)的發育過程提供了一套標準化的數據驅動建模策略。此前,雖然已有工作嘗試用連續場描述、個體軌跡規則推斷、圖神經網絡等方法分析多細胞系統,但大多聚焦于分子或蛋白質尺度,真正在細胞-組織尺度實現單細胞精度預測的框架幾乎沒有。研究者在論文中直言不諱地寫道:“這是我們所知的第一個能夠在多細胞自組裝過程中實現各類細胞行為單細胞精度預測的算法。”
當然,這項工作也面臨明顯的瓶頸。首先是數據。高質量的四維全胚胎追蹤數據極其稀缺,目前公開可用的只有少數幾組,樣本量和物種覆蓋都相當有限。郭明坦言,從模型角度講,MultiCell 已經準備好了,真正的瓶頸在于數據;如果能獲得特定組織的高質量視頻,模型可以直接遷移應用。
其次是溫度敏感性和個體差異。果蠅發育速率對溫度高度敏感,不同胚胎之間的時序可能并非簡單地線性縮放,這給定義統一的時間對齊度量帶來挑戰。研究者希望未來能系統性地比較不同溫度、營養或基因擾動條件下的胚胎,借此量化這些因素如何重塑發育的整體時序與協調性。
此外,當前模型僅基于幾何信息,尚未整合基因表達、蛋白質定位、機械力場等多模態數據。作者在討論部分提到,未來加入細胞機械性質、連接張力以及多組學信息,有望更全面地揭示物理與生物信息之間的相互作用。
在應用前景方面,研究者特別點名了哮喘和癌癥。哮喘患者的肺組織與健康組織在細胞動力學上存在可檢測的差異,而 MultiCell 可能捕捉到這些微妙的模式,從而改進早期診斷或藥物篩選流程。博士生 Haiqian Yang 在 MIT 新聞稿中表示:“我們設想我們的模型可以捕捉這些細微的動態差異,提供更全面的組織行為表征。” 癌癥的早期演進同樣涉及細胞重排的異常,理解正常與病變組織在預測景觀上的偏差,或許能揭示維持組織穩態的關鍵機制。
論文結尾還拋出了一個更大的愿景:正如今天可以用 AlphaFold 預測蛋白質結構,未來或許能設計一個通用的多細胞發育預測模型,實現“數字胚胎”的計算機模擬。這樣的模型不僅能用于藥物篩選,甚至可能指導人工組織的設計。考慮到 AlphaFold 在短短幾年內從 CASP 競賽的突破走到 2024 年諾貝爾化學獎(David Baker 與 Demis Hassabis、John Jumper 共同獲獎),多細胞發育領域的類似突破也許并不遙遠。
當然,兩者面臨的挑戰也并不完全對等。蛋白質折疊雖然復雜,但最終產物是相對穩定的結構,訓練數據(PDB 蛋白質數據庫)也已積累了超過 20 萬條實驗解析結構。而胚胎發育是一個開放的、不斷演化的動態過程,細胞之間的互作關系隨時間劇烈變化,高質量標注數據的獲取成本極高。在這個意義上,MultiCell 更像是一個概念驗證,證明幾何深度學習在單細胞精度上具備預測能力,但要真正構建跨物種、跨發育階段的通用模型,路還很長。
值得注意的是,近期發育生物學領域的另一些進展也在佐證這一方向的潛力。2025 年 7 月,一篇發表于《自然·通訊》(Nature Communications)的研究首次利用布里淵顯微鏡(Brillouin microscopy)繪制了果蠅原腸胚形成期間細胞材料屬性的時空動態圖譜,發現不同命運的細胞群落在機械性質上存在顯著差異。
這類實驗數據未來若能與 MultiCell 的預測框架對接,或將催生更具物理可解釋性的發育模型。
參考資料:
1.https://www.nature.com/articles/s41592-025-02983-x
2.https://news.mit.edu/2025/deep-learning-model-predicts-how-fruit-flies-form-1215
運營/排版:何晨龍





京公網安備 11011402013531號