近年來(lái),生成式 AI 在性能上實(shí)現(xiàn)了質(zhì)的飛躍,但其在應(yīng)用于科學(xué)研究方面仍面臨挑戰(zhàn)——科學(xué)問(wèn)題的復(fù)雜程度遠(yuǎn)超 ChatGPT 等通用大模型的處理能力。
GeoGPT,一個(gè)為地球科學(xué)家量身定制的領(lǐng)域基礎(chǔ)模型,于今年 4 月 27日正式面向全球開(kāi)放使用。GeoGPT 受深時(shí)數(shù)字地球(DDE)國(guó)際大科學(xué)計(jì)劃使命愿景啟發(fā),初始于云棲工程院,由之江實(shí)驗(yàn)室牽頭,聯(lián)合浙江深時(shí)數(shù)字地球國(guó)際研究中心等國(guó)內(nèi)外 25 家機(jī)構(gòu)、400 余名地學(xué)專(zhuān)家聯(lián)合研發(fā),為全球地學(xué)科研工作者提供新的工具和視角,推動(dòng)地球科學(xué)研究范式變革。
目前,以開(kāi)源基礎(chǔ)模型為技術(shù)底座,GeoGPT 融合了深時(shí)地球數(shù)據(jù)與智能算法,具備文獻(xiàn)解析與數(shù)據(jù)抽取、領(lǐng)域知識(shí)圖譜構(gòu)建、個(gè)性化知識(shí)助手、地質(zhì)圖識(shí)別與問(wèn)答、科研創(chuàng)意生成等多項(xiàng)核心功能,并已實(shí)際應(yīng)用于巖漿巖數(shù)據(jù)庫(kù)構(gòu)建與應(yīng)用、古生物數(shù)據(jù)庫(kù)構(gòu)建與分類(lèi)、地質(zhì)圖智能生成等多個(gè)專(zhuān)業(yè)場(chǎng)景。這不是簡(jiǎn)單的科研輔助工具,而是一場(chǎng)地學(xué)領(lǐng)域的研究范式的革命,有望推動(dòng)科研范式從實(shí)際觀察、實(shí)驗(yàn)驅(qū)動(dòng)向計(jì)算密集、數(shù)據(jù)驅(qū)動(dòng)和基于模型變革。
目前 GeoGPT 已正式開(kāi)源上線,GeoGPT 的注冊(cè)用戶(hù)超過(guò) 4 萬(wàn),覆蓋 135個(gè)國(guó)家,其中國(guó)際用戶(hù)比例超過(guò) 25%,獲得了海外專(zhuān)家和學(xué)者的廣泛認(rèn)可。日前,GeoGPT 在瑞士日內(nèi)瓦舉辦的 2025 年 AI for Good 全球峰會(huì)亮相并入選國(guó)際電信聯(lián)盟(ITU)《人工智能向善創(chuàng)新實(shí)踐案例集》(AI for Good Innovate for Impact uses cases),并獲 ITU 頒發(fā)的優(yōu)秀創(chuàng)新實(shí)踐案例獎(jiǎng)。
![]()
圖丨 GeoGPT 已在 GitHub 開(kāi)源(GitHub)
GeoGPT 支持國(guó)內(nèi)外用戶(hù)根據(jù)實(shí)際需求靈活選擇基礎(chǔ)模型架構(gòu),包括 Llama3、DeepSeek R1、Mixtral、Qwen2.5 以及之江實(shí)驗(yàn)室自主研發(fā)的 021 科學(xué)基礎(chǔ)模型等。此外,研究團(tuán)隊(duì)自主研發(fā)了專(zhuān)門(mén)優(yōu)化的推理模型 GeoGPT-R1-Preview,特別注重高效推理與落地部署能力。
![]()
(GeoGPT 官網(wǎng))
之江實(shí)驗(yàn)室科學(xué)數(shù)據(jù)樞紐研究中心副主任陳紅陽(yáng)對(duì) DeepTech 表示:“我們?cè)陂_(kāi)源模型基礎(chǔ)上進(jìn)行創(chuàng)新性解耦,既‘站在巨人的肩膀上’,又能夠讓 GeoGPT 兼具通用性與領(lǐng)域?qū)I(yè)性。即便未來(lái)基礎(chǔ)模型持續(xù)演進(jìn),GeoGPT 仍能保持快速迭代新版本的能力。”
特別值得注意的是,GeoGPT 所采用的方法論和技術(shù)框架具有可擴(kuò)展性,可推廣應(yīng)用于天文學(xué)等其他學(xué)科領(lǐng)域。英國(guó)著名地質(zhì)科學(xué)家 Mike Stephenson 教授對(duì)此評(píng)價(jià)道:“GeoGPT 為其他科學(xué)領(lǐng)域樹(shù)立了標(biāo)桿,它標(biāo)志著地球科學(xué)率先構(gòu)建了領(lǐng)域基礎(chǔ)模型。”
![]()
破局者登場(chǎng):GeoGPT 的“三維立體突破”
地球科學(xué)研究在應(yīng)對(duì)氣候變化、資源勘探和災(zāi)害防治等重大挑戰(zhàn)中扮演著核心角色。然而,該領(lǐng)域的發(fā)展長(zhǎng)期受困于三大核心挑戰(zhàn):數(shù)據(jù)多源異構(gòu)且處理困難、海量長(zhǎng)尾數(shù)據(jù)難以有效關(guān)聯(lián)整合以及學(xué)科壁壘導(dǎo)致的知識(shí)融合障礙。突破這些瓶頸是推動(dòng)地球科學(xué)智能化、協(xié)同化發(fā)展的關(guān)鍵。
![]()
圖丨篩選具有公開(kāi)獲取許可的論文(之江實(shí)驗(yàn)室)
為了有效地整合鏈接地學(xué)長(zhǎng)尾數(shù)據(jù),GeoGPT 團(tuán)隊(duì)通過(guò)知識(shí)圖譜方法,從海量大模型數(shù)據(jù)訓(xùn)練庫(kù) Common Crawl 中提取地學(xué)相關(guān)內(nèi)容,累積獲取約 140B 的 token。另外,GeoGPT 在整個(gè)訓(xùn)練過(guò)程中尊重知識(shí)產(chǎn)權(quán),篩選并只使用具有 CC BY 或 CC BY-NC 許可的公開(kāi)獲取論文,截至目前,模型已涵蓋 15 家地學(xué)相關(guān)出版社、182 個(gè)出版物以及 28.8 萬(wàn)篇 OA 論文。
為確保數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)建立了一套嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)生產(chǎn)流程,涵蓋數(shù)據(jù)挖掘、PDF 解析、標(biāo)注分析、質(zhì)量篩選等關(guān)鍵環(huán)節(jié),通過(guò)多維度優(yōu)化最終產(chǎn)出大規(guī)模高質(zhì)量專(zhuān)業(yè)語(yǔ)料。經(jīng)對(duì)比驗(yàn)證,這些語(yǔ)料在專(zhuān)業(yè)性和質(zhì)量指標(biāo)上均顯著優(yōu)于 Fineweb、DCLM 等主流開(kāi)源數(shù)據(jù)集。
研發(fā)團(tuán)隊(duì)還積極地與地學(xué)用戶(hù)共建科研 Agent 和領(lǐng)域科研數(shù)據(jù)集,并鼓勵(lì)科學(xué)家通過(guò) GeoGPT 將工具與數(shù)據(jù)分享給全球用戶(hù),最大化實(shí)現(xiàn)地學(xué)長(zhǎng)尾數(shù)據(jù)鏈接與共享。
在突破學(xué)科壁壘導(dǎo)致的知識(shí)融合障礙時(shí),GeoGPT 以本體論為核心框架,引入知識(shí)圖譜研究的新方法,通過(guò)人機(jī)協(xié)同的方式系統(tǒng)性地建設(shè)本體庫(kù)、知識(shí)體系和知識(shí)圖譜。同時(shí)專(zhuān)門(mén)開(kāi)發(fā)了可視化、交互式的地學(xué)知識(shí)圖譜構(gòu)建與應(yīng)用平臺(tái),旨在建立覆蓋全面、權(quán)威可靠、語(yǔ)義統(tǒng)一的地學(xué)全領(lǐng)域知識(shí)圖譜體系,實(shí)現(xiàn)專(zhuān)家知識(shí)(人-人)與機(jī)器理解(人-機(jī))的雙向?qū)R。
GeoGPT 的動(dòng)態(tài)知識(shí)更新機(jī)制是其核心技術(shù)優(yōu)勢(shì)之一,該機(jī)制支持領(lǐng)域知識(shí)的實(shí)時(shí)更新與融合演進(jìn),不僅持續(xù)增強(qiáng)模型的專(zhuān)業(yè)能力,更為地學(xué)科研和產(chǎn)業(yè)應(yīng)用提供了與時(shí)俱進(jìn)的智能服務(wù)。
值得一提的是,系統(tǒng)在設(shè)計(jì)上特別注重保留不同學(xué)科方向?qū)?zhuān)業(yè)概念的差異化定義和內(nèi)涵闡釋?zhuān)瑫r(shí)完整收錄同一概念的所有學(xué)科別名,這一設(shè)計(jì)有效解決了長(zhǎng)期困擾地學(xué)領(lǐng)域的概念歧義問(wèn)題,為跨學(xué)科研究提供了可靠的知識(shí)基礎(chǔ)。
![]()
從通用到專(zhuān)精,歷經(jīng) 7 次版本迭代
科學(xué)領(lǐng)域的模型是否具有通用性?為深入探究這一問(wèn)題,之江實(shí)驗(yàn)室團(tuán)隊(duì)自 2023 年 7 月起著手研發(fā) GeoGPT 地學(xué)領(lǐng)域 AI 模型,目前已成功完成 7 次重大版本迭代。
“回顧 GeoGPT 的發(fā)展歷程,這其中既有技術(shù)上的決定,也有機(jī)制上的決定。團(tuán)隊(duì)在充分利用開(kāi)源基礎(chǔ)模型優(yōu)勢(shì)的基礎(chǔ)上,創(chuàng)新性地構(gòu)建了地學(xué)領(lǐng)域 AI 模型,并持續(xù)拓展其應(yīng)用場(chǎng)景。”陳紅陽(yáng)表示。
在技術(shù)攻關(guān)方面,研究團(tuán)隊(duì)重點(diǎn)突破了以下關(guān)鍵難題:
針對(duì)災(zāi)難遺忘問(wèn)題,團(tuán)隊(duì)通過(guò)系統(tǒng)性地嘗試模型融合、模型架構(gòu)擴(kuò)展等方案,并結(jié)合多階段漸進(jìn)式訓(xùn)練策略與數(shù)據(jù)優(yōu)化方法,最終實(shí)現(xiàn)了專(zhuān)業(yè)能力與通用性能的協(xié)同提升。
專(zhuān)業(yè)數(shù)據(jù)構(gòu)建方面,團(tuán)隊(duì)開(kāi)發(fā)了融合數(shù)據(jù)合成與增強(qiáng)技術(shù)的解決方案,通過(guò)模板微調(diào)與領(lǐng)域定向微調(diào)(結(jié)合強(qiáng)化學(xué)習(xí))的雙軌策略,不僅提升了模型推理能力,還建立了專(zhuān)業(yè)指令合成方法體系,最終構(gòu)建了高質(zhì)量的地學(xué)問(wèn)答數(shù)據(jù)集和地學(xué) RAG 受限數(shù)據(jù)集。
文檔處理技術(shù)方面,團(tuán)隊(duì)重點(diǎn)優(yōu)化了文檔分割與切片算法。通過(guò)研發(fā)動(dòng)態(tài)表格解析算法,結(jié)合布局特征識(shí)別與語(yǔ)義連貫性分析,實(shí)現(xiàn)了表格的智能重組與標(biāo)題關(guān)聯(lián)。同時(shí)開(kāi)發(fā)的自適應(yīng)切片策略,可根據(jù)文本密度和圖表分布動(dòng)態(tài)調(diào)整處理粒度,顯著提升了文獻(xiàn)解析的準(zhǔn)確性。
數(shù)據(jù)抽取技術(shù)上,團(tuán)隊(duì)創(chuàng)新性地提出了“需求拆解-分層處理”框架。針對(duì)單一模型處理復(fù)雜需求時(shí)的性能局限,該框架將抽取任務(wù)分解為對(duì)象識(shí)別、屬性提取、關(guān)系構(gòu)建等子模塊。此前需要一周完成的數(shù)據(jù)抽取任務(wù),現(xiàn)在用 GeoGPT 不到 1 天就能高質(zhì)量完成。值得注意的是,GeoGPT 在保持與頂尖商業(yè)軟件相當(dāng)解析精度的同時(shí),將推理成本降低了 80%。
強(qiáng)化領(lǐng)域?qū)I(yè)推理能力,團(tuán)隊(duì)通過(guò)系統(tǒng)分析地學(xué)教材、專(zhuān)著和科研成果,提煉專(zhuān)家解決問(wèn)題的思維模式,并借助指令微調(diào)與強(qiáng)化學(xué)習(xí)技術(shù)將這些專(zhuān)業(yè)思維鏈注入 GeoGPT,使其逐步具備接近地學(xué)專(zhuān)家的復(fù)雜問(wèn)題推理能力。
![]()
從開(kāi)源到推動(dòng)地學(xué)科研范式變革
基于 GeoGPT,之江實(shí)驗(yàn)室已與全球地學(xué)領(lǐng)域科學(xué)家展開(kāi)深度合作,推動(dòng)該技術(shù)在多個(gè)專(zhuān)業(yè)場(chǎng)景的實(shí)際應(yīng)用。
其中,與中國(guó)地質(zhì)科學(xué)院地質(zhì)研究所研究員王濤教授團(tuán)隊(duì)的合作最具代表性,雙方共同構(gòu)建了從科學(xué)問(wèn)題的提出、數(shù)據(jù)采集處理、插值計(jì)算分析、可視化呈現(xiàn)到研究圖件的生成的全鏈條智能化科研工作流,顯著提升了巖漿巖時(shí)空物源演化、深部物質(zhì)演變、大陸地殼生長(zhǎng)等方面研究效率。在這一過(guò)程中,GeoGPT 作為核心智能中樞發(fā)揮了關(guān)鍵的“科研流程串聯(lián)者”作用。
![]()
(王濤教授團(tuán)隊(duì))
GeoGPT 希望未來(lái)能夠?qū)⒖蒲腥鞒谈鳝h(huán)節(jié)的產(chǎn)出——包括科學(xué)假設(shè)、處理后的數(shù)據(jù)、可視化呈現(xiàn)的內(nèi)容等有機(jī)融合,自動(dòng)生成結(jié)構(gòu)完整、論證嚴(yán)謹(jǐn)?shù)难芯繄?bào)告,以幫助科研工作者實(shí)現(xiàn)更高質(zhì)量的科研工作。
陳紅陽(yáng)說(shuō)道:“這一目標(biāo)的實(shí)現(xiàn)需要多項(xiàng)關(guān)鍵技術(shù)的協(xié)同創(chuàng)新,包括自然語(yǔ)言理解、科研需求解析、大數(shù)據(jù)處理與分析等技術(shù)的深度融合,只有通過(guò)系統(tǒng)化的技術(shù)集成,才能真正實(shí)現(xiàn)科研全流程的無(wú)縫銜接和智能化。”
![]()
(之江實(shí)驗(yàn)室)
另一個(gè)典型應(yīng)用案例是,與美國(guó)普渡大學(xué) James Ogg 教授團(tuán)隊(duì)合作,共同攻克了全球權(quán)威巨著《無(wú)脊椎動(dòng)物專(zhuān)著》(Treatise on Invertebrate Paleontology)的數(shù)據(jù)化難題。這部涵蓋 50 卷、10 萬(wàn)化石屬的“數(shù)據(jù)金礦”,因紙質(zhì)載體限制和復(fù)雜數(shù)據(jù)結(jié)構(gòu)長(zhǎng)期無(wú)法被有效利用。研究團(tuán)隊(duì)創(chuàng)新性地提出了“AI 批量抽取+專(zhuān)家驗(yàn)證+模型迭代”的協(xié)同技術(shù)路線:GeoGPT 團(tuán)隊(duì)負(fù)責(zé)研發(fā)核心的自動(dòng)化數(shù)據(jù)抽取引擎,實(shí)現(xiàn)了化石屬名、地質(zhì)年代、生物地理分布等關(guān)鍵信息的結(jié)構(gòu)化轉(zhuǎn)換;Ogg 教授團(tuán)隊(duì)則主導(dǎo)數(shù)據(jù)標(biāo)準(zhǔn)制定、結(jié)果驗(yàn)證及可交互數(shù)據(jù)庫(kù)(treatise.geolex.org)的構(gòu)建。
通過(guò)這種產(chǎn)學(xué)研深度融合的模式,團(tuán)隊(duì)僅用 4 個(gè)月便完成了 3 卷數(shù)千化石屬的精準(zhǔn)提取,時(shí)間成本降低 75%。Ogg 教授高度評(píng)價(jià)這一成果:“GeoGPT 突破了 Treatise 的數(shù)據(jù)化瓶頸,將過(guò)去視為‘不可能’的化石大數(shù)據(jù)工程變?yōu)楝F(xiàn)實(shí)。”基于當(dāng)前成果,團(tuán)隊(duì)正規(guī)劃將技術(shù)拓展至生物演化樹(shù)等更高維度的圖表數(shù)據(jù)挖掘領(lǐng)域,進(jìn)一步推動(dòng)古生物學(xué)研究的數(shù)字化轉(zhuǎn)型。
![]()
(之江實(shí)驗(yàn)室)
“我們的科學(xué)合作案例摸索出來(lái)的經(jīng)驗(yàn)表明:AI+地學(xué),不僅是技術(shù)上的融合,更是體制機(jī)制的創(chuàng)新融合。地學(xué)專(zhuān)家與計(jì)算機(jī)領(lǐng)域?qū)<倚枰揭黄鹕钊虢涣鳎诤铣梢粋€(gè)團(tuán)隊(duì),對(duì)齊話語(yǔ)體系,才能更深入地理解關(guān)鍵問(wèn)題。只有當(dāng)學(xué)科邊界被 AI 重新定義為協(xié)作界面時(shí),才能催生出具有學(xué)科穿透力的領(lǐng)域基礎(chǔ)模型。”陳紅陽(yáng)說(shuō)道。
當(dāng)前,生成式 AI 技術(shù)正在全球科研領(lǐng)域引發(fā)革命性變革,GeoGPT 有望從兩個(gè)維度推動(dòng)地球科學(xué)研究范式變革:
在研究效率層面,GeoGPT 通過(guò)集成化的智能能力顯著提升文獻(xiàn)研讀、數(shù)據(jù)提取與處理、知識(shí)庫(kù)構(gòu)建及科研寫(xiě)作等環(huán)節(jié)的效率與質(zhì)量;在研究創(chuàng)新層面,系統(tǒng)憑借其強(qiáng)大的邏輯推理與知識(shí)關(guān)聯(lián)能力,可輔助科研人員提出創(chuàng)新性假設(shè),并進(jìn)行系統(tǒng)性科學(xué)驗(yàn)證,從而拓展人類(lèi)對(duì)地球系統(tǒng)的認(rèn)知邊界。
從大模型技術(shù)發(fā)展趨勢(shì)來(lái)看,地球系統(tǒng)模擬被視為解決諸多關(guān)鍵科學(xué)問(wèn)題的“金鑰匙”,但核心挑戰(zhàn)在于如何從多維度、多尺度的海量觀測(cè)數(shù)據(jù)中抽取出系統(tǒng)運(yùn)行的基本原理。只有當(dāng)這些原理模型既符合現(xiàn)實(shí)觀測(cè)又具備足夠的完備性時(shí),才能真正建立起可靠的地球系統(tǒng)模擬。
當(dāng)前,地球系統(tǒng)模擬的發(fā)展呈現(xiàn)雙軌并進(jìn)態(tài)勢(shì):一方面,全球地學(xué)科學(xué)家通過(guò)大氣物理、地質(zhì)化學(xué)等特定領(lǐng)域的機(jī)理研究,持續(xù)完善地球系統(tǒng)的原理模型,這一自下而上的路徑依賴(lài)持續(xù)的理論突破;另一方面,之江實(shí)驗(yàn)室開(kāi)創(chuàng)性地采用 GeoGPT 多模態(tài)架構(gòu),通過(guò)融合地震、勘探等跨尺度傳感器數(shù)據(jù),構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的實(shí)時(shí)分析系統(tǒng)。盡管 GeoGPT 展現(xiàn)出了顯著的增強(qiáng)潛力,但要實(shí)現(xiàn)與傳統(tǒng)原理模型的無(wú)縫協(xié)同,仍需攻克多源數(shù)據(jù)融合、物理規(guī)則嵌入等關(guān)鍵技術(shù)瓶頸。
參考資料:
國(guó)內(nèi)站:
https://geogpt.zero2x.org.cn
國(guó)際站:
https://geogpt.zero2x.org
開(kāi)源鏈接:
https://github.com/GeoGPT-Research-Project
https://huggingface.co/GeoGPT-Research-Project https://modelscope.cn/profile/GeoGPT
GeoGPT 用戶(hù)手冊(cè):
https://zjlab-geogpt.yuque.com/hxsbwb/kw6ett/im86f1mpe25b1gca#ev5MP
巖漿巖數(shù)據(jù)庫(kù) OnePetrology
https://dde.igeodata.org/





京公網(wǎng)安備 11011402013531號(hào)