![]()
7 月 10 日,微軟研究院 AI for Science 團(tuán)隊(duì)在《Science》雜志發(fā)表了題為「Scalable emulation of protein equilibrium ensembles with generative deep learning」的研究成果。
![]()
論文https://www.science.org/doi/10.1126/science.adv9817代碼
github.com/microsoft/bioemu模型
https://huggingface.co/microsoft/bioemu評(píng)估基準(zhǔn)
github.com/microsoft/bioemu-benchmarksColabFold:https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/BioEmu.ipynb
AI Foundry:https://ai.azure.com/catalog/models/BioEmu
該研究提出了一種名為 BioEmu 的生成式深度學(xué)習(xí)模型,能夠以前所未有的效率和精度模擬蛋白質(zhì)的構(gòu)象變化,為理解蛋白質(zhì)功能機(jī)制和加速藥物發(fā)現(xiàn)打開(kāi)了新路徑。
從結(jié)構(gòu)預(yù)測(cè)到功能模擬:蛋白質(zhì)研究的下一個(gè)前沿
近年來(lái),AlphaFold 等模型在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面取得了突破性進(jìn)展,但這些方法通常只能預(yù)測(cè)單一靜態(tài)結(jié)構(gòu),難以捕捉蛋白質(zhì)在功能過(guò)程中所經(jīng)歷的動(dòng)態(tài)變化。蛋白質(zhì)并非靜止不動(dòng)的分子,而是處于不斷變化的構(gòu)象系綜(conformational ensemble)中,其功能往往依賴(lài)于這些結(jié)構(gòu)之間的轉(zhuǎn)換。
BioEmu 正是為了解決這一挑戰(zhàn)而生。它通過(guò)結(jié)合 AlphaFold 數(shù)據(jù)庫(kù)中的靜態(tài)結(jié)構(gòu)、超過(guò) 200 毫秒的分子動(dòng)力學(xué)(MD)模擬數(shù)據(jù),以及 50 萬(wàn)條蛋白穩(wěn)定性實(shí)驗(yàn)數(shù)據(jù),訓(xùn)練出一個(gè)能夠在單張 GPU 上每小時(shí)生成上千個(gè)獨(dú)立蛋白質(zhì)結(jié)構(gòu)的生成模型。
![]()
視頻:BioEmu生成的蛋白質(zhì)動(dòng)態(tài)構(gòu)象展示
生成式建模
BioEmu 承接自微軟研究院的前期工作 DiG(Distributional Graphormer),基于擴(kuò)散模型架構(gòu),結(jié)合 AlphaFold 的 evoformer 編碼器和二階積分采樣技術(shù),能夠高效地從蛋白質(zhì)構(gòu)象分布中采樣。其核心創(chuàng)新在于:
能夠模擬蛋白質(zhì)在功能過(guò)程中出現(xiàn)的關(guān)鍵結(jié)構(gòu)變化,如隱性口袋、局部解折疊和結(jié)構(gòu)域重排;
![]()
在自由能預(yù)測(cè)方面達(dá)到 1 kcal/mol 的誤差水平,與毫秒級(jí) MD 模擬和實(shí)驗(yàn)數(shù)據(jù)高度一致,相比分子動(dòng)力學(xué)模擬實(shí)現(xiàn)了若干個(gè)數(shù)量級(jí)的加速;
![]()
對(duì)突變體的穩(wěn)定性變化(ΔΔG)預(yù)測(cè)表現(xiàn)出色,平均絕對(duì)誤差低于 1 kcal/mol,Spearman 相關(guān)系數(shù)超過(guò) 0.6。
![]()
開(kāi)源發(fā)布
研究團(tuán)隊(duì)已在 GitHub 和 HuggingFace 上開(kāi)源了模型參數(shù)和代碼,還發(fā)布了超過(guò) 100 毫秒的 MD 模擬數(shù)據(jù),涵蓋數(shù)千個(gè)蛋白系統(tǒng)和數(shù)萬(wàn)個(gè)突變體,為后續(xù)研究提供了豐富資源。BioEmu 也部署在了 Azure AI Foundry 和 ColabFold 等平臺(tái),使得用戶可以便捷地運(yùn)行模型。
![]()
展望未來(lái):從單體蛋白到多分子系統(tǒng)
BioEmu 的開(kāi)源發(fā)布也標(biāo)志著微軟在推動(dòng)開(kāi)放科學(xué)方面邁出的重要一步。目前,BioEmu 的建模對(duì)象主要是單體蛋白質(zhì)。研究團(tuán)隊(duì)正在探索將其擴(kuò)展到蛋白質(zhì)復(fù)合物、蛋白-配體相互作用等更復(fù)雜的生物體系,并結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)一步提升模型的泛化能力和可解釋性。在蛋白質(zhì)科學(xué)、藥物設(shè)計(jì)和合成生物學(xué)等領(lǐng)域,BioEmu 有望成為連接結(jié)構(gòu)與功能、理論與實(shí)驗(yàn)的橋梁。





京公網(wǎng)安備 11011402013531號(hào)