![]()
新智元報道
編輯:定慧 好困
OpenAI與Retro Biosciences合作,借助定制模型GPT-4b micro成功設計出優化版「山中因子」,大幅提升了成體細胞逆轉為多能干細胞的效率。這一成果不僅改進了細胞工程,更展示了AI賦能生命科學研究的全新范式,加速科研進入全新時代。
在生命科學領域,一個長期未解的難題是:如何高效地將成體細胞逆轉為多能干細胞。
傳統方法依賴一種稱為「山中因子」的蛋白質。

「山中因子」的一種變體
只要把它導入成體細胞,就能把它們「重編程」為誘導多能干細胞(iPSCs)。
這種「細胞逆轉」,能讓普通的體細胞回到像胚胎一樣的狀態,從此人類就有可能再生各種組織,甚至治愈那些無法治療的疾病。
今天在AI的幫助下,人類又一次離「逆轉衰老」更進一步!
剛剛,OpenAI宣布,他們和Retro Biosciences的合作已成功利用GPT?4b micro設計出了山中因子的「新穎且顯著優化」的變體。
GPT?4b micro是OpenAI專門為生命科學和蛋白質工程定制的AI模型。
![]()
可以理解為GPT-4系列的一個「微縮實驗版」。
它不是通用大模型,而是針對蛋白質設計這個任務做了專門優化。
山中因子是一組特殊的蛋白質,因其在誘導產生多能干細胞(iPSCs)和實現細胞年輕化方面的開創性作用而榮獲諾貝爾獎。
該技術還被用于開發治療失明、逆轉糖尿病、治療不孕癥以及解決器官短缺等問題的創新療法。
山中因子
20世紀末,科學界有一個幾乎不可動搖的共識:細胞的命運一旦確定,就無法逆轉。
如果一個細胞已經分化成皮膚細胞、肌肉細胞或神經細胞,就不能再「回頭」變成其他細胞。
皮膚細胞只能是皮膚細胞,神經元只能是神經元,沒人相信它們還能逆轉,重新變成萬能的胚胎樣細胞。
獲取多能干細胞只能依賴胚胎,這不僅受制于倫理爭議,也讓再生醫學的發展步履維艱。
然而,一位日本科學家山中伸彌(Shinya Yamanaka)并不愿接受這樣的限制。
![]()
作為骨科醫生出身的研究者,他親眼見過病人因神經損傷、器官衰竭而無藥可醫。他心里一直有個疑問:
如果能讓普通的體細胞回到像胚胎一樣的狀態,是不是就能再生各種組織,甚至治愈那些無法治療的疾病呢?
2006年,他帶著團隊把幾十個與干細胞有關的基因一股腦兒導入小鼠的皮膚細胞,嘗試讓它們「重啟」。
出人意料的是,有些細胞真的開始「逆轉」,逐漸表現出胚胎干細胞的特征。
經過不斷篩選,他們最終鎖定了OCT4、SOX2、KLF4、MYC四個關鍵因子。
只要把這四個基因一起導入成體細胞,就能把它們「重編程」為誘導多能干細胞(iPSCs)。
這個發現震驚了全世界,也徹底顛覆了「細胞命運不可逆」的傳統觀點。
正是因為這一里程碑式的突破,山中伸彌和John Gurdon在2012年獲得了諾貝爾生理學或醫學獎。
Gurdon早在1962年通過一項經典實驗,發現已分化的特定成熟細胞要想變回「從前」,是可逆的。
![]()
OpenAI最新成就
OpenAI的體外實驗結果顯示,這些經重新設計的蛋白質所誘導的干細胞重編程標記物表達量,比野生型對照組高出50余倍。
![]()
同時,它們還表現出更強的DNA損傷修復能力,這意味著與基線相比,其細胞年輕化潛力更高。
OpenAI表示,2025年初他們就取得了這項發現。
后續通過在多種捐贈者來源、多種細胞類型和多種遞送方法中的重復實驗驗證了其可靠性,最終確認所衍生的iPSC細胞系具備完全的多能性和基因組穩定性。
下面這三張圖展示的是,OpenAI設計的蛋白質能更高效地誘導干細胞重編程:
![]()
初始狀態的人類成纖維細胞(第1天)
![]()
使用標準的山中因子(SOX2, KLF4, OCT4, MYC)重編程10天后,細胞形態散亂
![]()
使用RetroSOX與RetroKLF變體(結合OCT4, MYC)重編程10天后,出現了大量具有緊湊、圓形形態的集落,這是細胞邁向iPSC狀態的典型特征
一款專為蛋白質工程打造的GPT
OpenAI是如何實現「逆轉細胞」的?
為驗證AI加速生命科學研究的設想,他們設計并訓練了一款定制模型——GPT-4b micro。
首先,從一個GPT-4o的縮減版進行初始化,以充分利用GPT系列模型已有的知識儲備,隨后在一個特殊的數據集上對其進行深度訓練。
該數據集主要由蛋白質序列構成,并輔以生物學文本和Token化的三維結構數據——這些元素是多數蛋白質語言模型所忽略的。
研究團隊對大部分數據進行了豐富,為其添加了額外的上下文信息,包括蛋白質的文本描述、共進化同源序列以及已知的相互作用蛋白質組。
有了這些上下文,GPT-4b micro便能根據提示詞生成具有特定屬性的序列。
由于大部分數據不包含結構信息,該模型能夠同等出色地處理包含內在無序區域的蛋白質與結構穩定的蛋白質。
這對于山中因子這類靶點尤為關鍵,因為它們的活性并非依賴于形成單一穩定結構,而是通過與多種結合伴侶發生大量瞬時相互作用來實現的。

KLF4的3D結構可視化

SOX2的3D結構可視化
需要注意的是,這兩種蛋白質的大部分區域是非結構化的,擁有可與其他蛋白質結合的柔性臂。
通過在富含進化與功能背景信息的蛋白質數據上訓練,研究團隊訓練樣本的有效上下文長度遠超獨立的蛋白質序列。
OpenAI發現,在推理時,模型能夠處理長達64,000個Token的提示詞,同時在可控性和輸出質量上仍有持續提升。
盡管這一上下文長度在文本大語言模型中已屬常見,但在蛋白質序列模型領域尚屬首次。
在開發過程中,觀察到了類似語言模型的scaling laws——在更大數據集上訓練的更大模型,在困惑度(perplexity)和下游蛋白質基準測試上均表現出可預測的性能提升。
這使得研究團隊能夠在訓練最終的GPT-4b micro模型前,先進行小規模的快速迭代。
然而,蛋白質AI模型的硅基評估(in silico evals)價值通常有限,因為這些指標的提升能否轉化為真實世界的實用價值尚不明確。
為了證明該模型確實能加速療法開發,研究團隊與Retro的科學家們通力合作,由他們使用此模型重新設計了與其細胞重編程研究項目相關的關鍵蛋白質。
![]()
AI輔助重構SOX2與KLF4
提升干細胞重編程效率
山中因子——OCT4、SOX2、KLF4和MYC(簡稱OSKM)——是當今再生生物學領域最重要的蛋白質之一。
然而,這項技術有著一個關鍵瓶頸——效率低下。
在治療過程中,通常只有不到0.1%的細胞能成功轉化,且整個過程耗時三周以上。
對于來自年長或患病捐贈者的細胞,這一轉化效率還會進一步降低。
但問題是,想要直接優化蛋白質序列,幾乎是不可能的。
SOX2和KLF4分別包含317和513個氨基酸,其可能變體的數量高達10^1000的量級。
傳統的「定向進化」(directed-evolution)篩選方法,一次只能改變少數幾個氨基酸殘基,所能探索的設計空間可謂滄海一粟。
一項頂尖的學術研究測試了數千個SOX2突變體,僅發現少數幾個三突變體能帶來有限的效率提升。
另一項長達15年的嵌合SOX蛋白研究,最終得到的變體也僅與天然SOX蛋白有五個氨基酸的差異。
在這次的實驗中,Retro的團隊利用人類成纖維細胞(來自皮膚和結締組織)搭建了一個濕實驗室篩選平臺。
首先,他們使用標準的OSKM因子組合以及初步篩選中手動設計的SOX2變體,對平臺進行了驗證。
隨后,他們讓GPT-4b micro設計一組多樣的「RetroSOX」序列。
篩選結果顯示,模型給出的建議中超過30%的序列,在表達關鍵多能性標記物方面的表現優于野生型SOX2,盡管它們與野生型的平均差異超過100個氨基酸。
作為對比,傳統篩選的陽性率通常低于10%。
下圖顯示,在初步篩選(Pilot)、RetroSOX篩選和RetroKLF篩選中,表達早期多能性標記物SSEA4(左柱)和晚期標記物TRA-1-60(右柱)的細胞百分比。
可以看到,與效率極低(<0.1%)的常規方法相比,RetroKLF顯著提升了兩種標記物的表達水平。
![]()
工程化變體在多能性標記物表達上的提升
團隊的下一個目標,是重新設計山中因子中分子量最大的KLF4。
盡管已知KLF4可被其他KLF家族的因子替代,但并不能提升重編程的效率。
此前,一項通過專家指導進行單氨基酸替換來改良KLF4的嘗試,在測試了19個變體后僅獲得一個有效結果。
與RetroSOX的策略類似,研究團隊提示模型生成了一組增強型的RetroKLF變體。
最終,14個由模型生成的變體性能超越了RetroSOX篩選中效果最好的組合方案,陽性率接近50%。
下面兩張圖展示的是,AI設計方法的陽性率和序列編輯深度。
可以看到,將頂尖的RetroSOX和RetroKLF變體組合使用,帶來了最大的性能提升。
![]()
篩選陽性率,即性能超越基線的蛋白質候選者比例(左)與人類野生型蛋白質相比,序列被改變的百分比(右)
在三次獨立的實驗中,成纖維細胞的早期(SSEA-4)和晚期(TRA-1-60, NANOG)標記物水平均出現急劇上升,且晚期標記物的出現時間比使用野生型OSKM組合方案提前了數天。
![]()
在第10天,使用不同RetroSOX和RetroKLF變體組合(RK1-RK4)的細胞,其晚期標記物TRA-1-60(左)和NANOG(右)的表達水平遠高于使用標準OSKM(檢測不到)的對照組
此外,研究團隊在第10天通過堿性磷酸酶(AP)染色對RetroSOX和RetroKLF變體進行了驗證。
結果顯示,形成的細胞集落不僅表達晚期多能性標記物,還表現出強大的AP活性,這是細胞具備多能性的有力標志。
![]()
AP染色確認了重編程的成功:紫色的集落表示干細胞重編程成功,集落顏色越深、數量越多,表明效率越高
為了進一步確認重編程效率的提升并探索其臨床應用潛力,研究團隊測試了一種新的遞送方式(使用mRNA替代病毒載體)和另一種細胞類型——源自三位中年(50歲以上)捐贈者的人類間充質基質細胞(MSCs)。
僅7天內,便有超過30%的細胞開始表達關鍵的多能性標記物(SSEA4和TRA-1-60)。
到第12天,已出現大量形態與典型iPSC相似的集落。這些細胞中超過85%激活了包括OCT4、NANOG、SOX2和TRA-1-60在內的關鍵干細胞標記物的內源性表達。
接著,研究團隊驗證了這些由RetroFactor衍生的iPSC能夠成功分化為全部三個主要胚層(內胚層、外胚層和中胚層)。
此外,研究團隊將多個單克隆iPSC細胞系傳代培養,證實了其具有健康的核型和適用于細胞療法的基因組穩定性。
這些結果全面超越了由合同研究組織(CRO)使用標準因子生成的常規iPSC細胞系的基準數據,進一步證明了研究團隊工程化變體的穩健性,也為其在不同遞送方式和細胞類型中的應用提供了有力證據。
下面三張圖中所有的結果共同證實了,研究團隊已成功獲得健康、且完全重編程的干細胞,從而也全面驗證了重編程干細胞的健康與功能。
![]()
細胞集落呈現出干細胞特有的圓形、緊密堆積形態
![]()
TRA-1-60干細胞標記物(綠色熒光)呈陽性
![]()
細胞核型正常,染色體結構完整
綜上所述,高陽性率、深度的序列編輯、標記物的提前出現以及AP陽性集落的形成,這些早期證據共同表明,AI指導的蛋白質設計能夠極大地推動干細胞重編程研究的進程。
重構變體增強DNA損傷修復能力
接下來,OpenAI進一步探究了這些重構變體的細胞年輕化潛力,并重點考察了它們恢復衰老細胞年輕特征的能力。
現有的研究表明,山中因子可以在不完全逆轉細胞身份的前提下,清除小鼠細胞中與DNA損傷相關的衰老標記。
那么,與標準的OSKM相比,OpenAI制作的變體是否能表現出更強的年輕化能力呢?
下圖所展示的,便是經阿霉素誘導產生DNA損傷后,細胞內損傷標記物γ-H2AX的強度(越低越好)。
可以看到,與陰性對照組(GFP)和陽性對照組(OSKM)相比,使用Retro變體(RS4, RS5)處理的細胞,γ-H2AX信號有顯著的降低。
也就是說,在遭受同等遺傳毒性挑戰后,RetroSOX/KLF組合方案比原始的山中因子能更有效地減少DNA損傷。
![]()
工程化變體展現出了更強的DNA損傷修復能力,為提升細胞年輕化技術和開發未來療法開辟了一條充滿希望的道路
對此,OpenAI的研究合作負責人Boris Power總結道:
當研究人員將深刻的領域洞見與研究團隊的語言模型工具相結合時,那些曾經需要耗費數年才能解決的問題,如今可能在幾天之內就迎來轉機。
總的來說,這次的成功,不僅僅是AI創造了幾種更高效的蛋白質,更是向研究團隊展示了一種利用AI深度理解復雜科學問題并提出創新解決方案的全新科研范式
從尋找抗衰老療法,到設計新藥、解決糧食危機,當人類的智慧與AI的超凡算力相結合,研究團隊解決科學難題的速度,將發生革命性的改變。
一個由AI加速的科研新紀元,正向研究團隊走來。
參考資料:
https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
![]()





京公網安備 11011402013531號