編輯丨coisini
蛋白質是生命的物質基礎,是生命活動的主要承擔者,也是藥物研發和生物技術的核心。
近年來,AlphaFold 等模型在蛋白質結構預測方面取得了突破性進展,但這些方法通常只能預測單一靜態結構,難以捕捉蛋白質在功能過程中所經歷的動態變化。
蛋白質并非靜止不動的分子,而是處于不斷變化的構象系綜(conformational ensemble)中,其功能往往依賴于結構之間的轉換。
近期,微軟研究院 AI for Science 團隊提出并開源了一種生成式深度學習模型 ——BioEmu,以前所未有的效率和精度模擬了蛋白質的構象變化,為理解蛋白質功能機制和加速藥物發現打開了新路徑。
研究成果以《Scalable emulation of protein equilibrium ensembles with generative deep learning》為題登上了最新一期《Science》雜志封面。
論文地址:https://www.science.org/doi/10.1126/science.adv9817
代碼地址:github.com/microsoft/bioemu
模型地址:https://huggingface.co/microsoft/bioemu
從結構預測到功能模擬
BioEmu 基于微軟研究院前期工作 DiG(Distributional Graphormer),采用擴散模型架構,結合 AlphaFold 的 Evoformer 編碼器和二階積分采樣技術,旨在高效地從蛋白質構象分布中采樣。
具體來說,BioEmu 通過結合 AlphaFold 數據庫中的靜態結構、超過 200 毫秒的分子動力學(MD)模擬數據,以及 50 萬條蛋白穩定性實驗數據,訓練出一個能夠在單張 GPU 上每小時生成上千個獨立蛋白質結構的生成模型。
BioEmu 能夠模擬蛋白質在功能過程中出現的關鍵結構變化,如隱性口袋、局部解折疊和結構域重排。
BioEmu 在自由能預測方面達到 1 kcal/mol 的誤差水平,與毫秒級 MD 模擬和實驗數據高度一致,相比分子動力學模擬實現了若干個數量級的加速。
BioEmu 還能精準預測突變體的穩定性變化(ΔΔG),平均絕對誤差低于 1 kcal/mol,Spearman 相關系數超過 0.6。
案例研究
研究團隊通過兩個涉及較大蛋白質的案例,評估了 BioEmu 的應用性能:復合蛋白 II(134 個氨基酸)和四跨膜蛋白 CD9(225 個氨基酸)。
復合蛋白 II 是神經遞質釋放裝置中的一種天然無序蛋白(IDP)。IDP 通常難以通過分子動力學(MD)進行采樣,而 BioEmu 能高效模擬復合蛋白 II 的柔性結構集合,同時復現已知的二級結構元件(如中心螺旋和輔助螺旋)。
對于四跨膜蛋白 CD9,預訓練模型能采樣到兩種晶體參考結構(PDB 條目 6rlo 和 6rlr),而基于 MD 數據微調的 BioEmu 僅采樣 6rlo 而排除 6rlr。這與兩種結構存在于晶體環境中的觀察結果一致 ——6rlr 無法在折疊的單體蛋白中實現,因此 BioEmu 正確剔除。此外,BioEmu 還成功預測了開放構象和閉合構象。
目前,BioEmu 的建模對象主要是單體蛋白質。研究團隊正在探索將其擴展到蛋白質復合物、蛋白 - 配體相互作用等更復雜的生物體系,并結合實驗數據進一步提升模型的泛化能力和可解釋性。在蛋白質科學、藥物設計和合成生物學等領域,BioEmu 有望成為連接結構與功能、理論與實驗的橋梁。





京公網安備 11011402013531號