DeepAnalyze團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI
你是否還在為復(fù)雜的文件和海量數(shù)據(jù)而苦惱?是否希望能夠自動從數(shù)據(jù)中挖掘出真正有價(jià)值的信息?
最近,來自人大與清華的研究團(tuán)隊(duì)推出DeepAnalyze —— 你的專屬「數(shù)據(jù)科學(xué)家」。只需一個指令,它便能自動化分析你的數(shù)據(jù)、自主完成各類數(shù)據(jù)科學(xué)任務(wù):
數(shù)據(jù)任務(wù):支持自動化數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)可視化、數(shù)據(jù)洞察數(shù)據(jù)研究:可在非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行開放式深度研究,生成研究報(bào)告
![]()
DeepAnalyze是首個面向數(shù)據(jù)科學(xué)的Agentic LLM,無需任何workflow,僅憑一個LLM即可像數(shù)據(jù)科學(xué)家一樣,自主完成多種復(fù)雜的數(shù)據(jù)任務(wù)。
DeepAnalyze的論文、代碼、模型、數(shù)據(jù)均已開源,收獲1.1K+GitHub星標(biāo),歡迎大家體驗(yàn)!
DeepAnalyze —— 你的專屬「數(shù)據(jù)科學(xué)家」
DeepAnalyze在環(huán)境中自主編排和優(yōu)化各種操作,完成復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。
DeepAnalyze在真實(shí)環(huán)境中學(xué)習(xí)復(fù)雜任務(wù)
數(shù)據(jù)無處不在,而數(shù)據(jù)科學(xué)一直被視為人類智能的重要體現(xiàn)。從Kaggle比賽到日常的數(shù)據(jù)分析實(shí)踐,大量評測都在考察數(shù)據(jù)科學(xué)家在數(shù)據(jù)準(zhǔn)備、分析、建模、可視化與洞察等方面的綜合能力。
當(dāng)前的數(shù)據(jù)智能體(Data Agent)通常依賴人工設(shè)計(jì)的workflow,來驅(qū)動大模型完成特定的數(shù)據(jù)分析與可視化任務(wù)。雖然在各類單點(diǎn)任務(wù)上已取得了令人矚目的成果,但由于LLM的自主性仍然有限,它們距離理想的“全能自主數(shù)據(jù)科學(xué)家”依然存在明顯差距。
隨著大型語言模型智能水平的不斷提升,一個關(guān)鍵問題也愈發(fā)突出:如何讓LLM真正具備自主完成復(fù)雜數(shù)據(jù)科學(xué)任務(wù)的能力?
![]()
DeepAnalyze通過在真實(shí)環(huán)境中訓(xùn)練,學(xué)會自主編排、自適應(yīng)優(yōu)化操作,最終完成復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。為實(shí)現(xiàn)此,DeepAnalyze提出課程學(xué)習(xí)式Agentic訓(xùn)練范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向數(shù)據(jù)的軌跡合成框架(Data-grounded Trajectory Synthesis)。
課程學(xué)習(xí)式Agentic訓(xùn)練
數(shù)據(jù)科學(xué)任務(wù)本身具有高度復(fù)雜性,這讓基礎(chǔ)LLM在早期訓(xùn)練階段往往難以順利完成任務(wù)。任務(wù)復(fù)雜性導(dǎo)致模型幾乎得不到正向獎勵信號(即“獎勵稀疏”問題),強(qiáng)化學(xué)習(xí)過程容易停滯,甚至出現(xiàn)訓(xùn)練崩潰的情況。
為了解決這一難題,DeepAnalyze提出了「課程學(xué)習(xí)式 Agentic 訓(xùn)練」。其模擬人類數(shù)據(jù)科學(xué)家的學(xué)習(xí)路徑,讓LLM在真實(shí)環(huán)境中從簡單到復(fù)雜、從單一任務(wù)到綜合任務(wù)逐步進(jìn)階。通過這種漸進(jìn)式訓(xùn)練,模型的能力得以穩(wěn)步提升,避免在復(fù)雜任務(wù)中因?yàn)椤蔼剟钚盘枮榱恪倍鴮?dǎo)致學(xué)習(xí)失敗。
訓(xùn)練過程包括兩大階段:
單能力微調(diào):訓(xùn)練LLM在代碼生成、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理等方面的基礎(chǔ)能力;多能力Agentic訓(xùn)練:在真實(shí)任務(wù)環(huán)境中,讓LLM學(xué)會運(yùn)用多種能力,像數(shù)據(jù)科學(xué)家一樣自主完成復(fù)雜任務(wù)。
面向數(shù)據(jù)的軌跡合成
在數(shù)據(jù)科學(xué)領(lǐng)域,缺乏完整的長鏈問題求解軌跡,這讓LLM在探索解題空間時(shí)缺乏有效指導(dǎo),只能進(jìn)行低效、盲目的“試錯式”探索,難以獲得有意義的中間監(jiān)督信號。
為了解決這一難題,DeepAnalyze提出了「面向數(shù)據(jù)的軌跡合成」方法。其能夠自動合成50萬條數(shù)據(jù)科學(xué)推理與環(huán)境交互數(shù)據(jù),為大模型在龐大的搜索空間中提供正確路徑的示范和引導(dǎo)。
數(shù)據(jù)合成包含兩個關(guān)鍵部分:
推理軌跡合成:基于現(xiàn)有的 TableQA、結(jié)構(gòu)化知識理解、數(shù)據(jù)科學(xué)代碼生成任務(wù),構(gòu)建帶有完整推理路徑的訓(xùn)練數(shù)據(jù);交互軌跡合成:構(gòu)建多智能體系統(tǒng),從結(jié)構(gòu)化數(shù)據(jù)源(如Spider和BIRD)中自動合成數(shù)據(jù)科學(xué)交互軌跡,提供和真實(shí)環(huán)境的交互軌跡。
DeepAnalyze支持面向數(shù)據(jù)的深度研究
DeepAnalyze支持面向數(shù)據(jù)的深度研究,能夠自動生成具備分析師水準(zhǔn)的研究報(bào)告。
在數(shù)據(jù)研究報(bào)告生成任務(wù)中,無論是內(nèi)容深度還是報(bào)告結(jié)構(gòu),DeepAnalyze的表現(xiàn)都顯著優(yōu)于現(xiàn)有的閉源LLM。
![]()
分析報(bào)告:
![]()
作者介紹
![]()
張紹磊,中國人民大學(xué)信息學(xué)院助理教授,位于中國人民大學(xué)講席教授范舉教授團(tuán)隊(duì)。
他博士畢業(yè)于中國科學(xué)院計(jì)算技術(shù)研究所,導(dǎo)師為馮洋研究員。他的研究方向涵蓋大語言模型、多模態(tài)大模型、AI for Data Science。
相關(guān)研究成果在NeurIPS、ACL、ICLR等國際人工智能與自然語言處理會議發(fā)表論文30余篇,開源的多語言大模型、多模態(tài)大模型、數(shù)據(jù)科學(xué)大模型在GitHub社區(qū)累計(jì)獲得5000+星標(biāo)。
他長期擔(dān)任CCF-A類國際會議ACL ARR的領(lǐng)域主席和責(zé)任編輯。個人主頁:zhangshaolei1998@github.io。
![]()
范舉,中國人民大學(xué)教授、博士生導(dǎo)師,國家級青年人才,中國計(jì)算機(jī)學(xué)會數(shù)據(jù)庫專委會、大數(shù)據(jù)專委會執(zhí)行委員。
研究方向包括:數(shù)據(jù)治理技術(shù)與系統(tǒng)、智能數(shù)據(jù)庫系統(tǒng)等。
相關(guān)研究成果在計(jì)算機(jī)領(lǐng)域國際頂級期刊/會議發(fā)表論文60余篇。作為負(fù)責(zé)人先后主持國家自然科學(xué)基金優(yōu)秀青年基金項(xiàng)目、重點(diǎn)項(xiàng)目、面上項(xiàng)目,以及多項(xiàng)產(chǎn)學(xué)研合作項(xiàng)目。
先后獲得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優(yōu)秀教師等獎勵。
團(tuán)隊(duì)介紹
RUC-DataLab是中國人民大學(xué)信息學(xué)院、數(shù)據(jù)工程與知識工程教育部重點(diǎn)實(shí)驗(yàn)室設(shè)立的科研團(tuán)隊(duì),負(fù)責(zé)人是范舉教授,團(tuán)隊(duì)專注于數(shù)據(jù)系統(tǒng)+人工智能 (Data+AI)交叉領(lǐng)域,致力于將數(shù)據(jù)技術(shù)與人工智能技術(shù)深度融合,從而打造更加智能、高效的新型數(shù)據(jù)系統(tǒng)。
實(shí)驗(yàn)室的研究方向包括:(1)數(shù)據(jù)庫系統(tǒng)智能化(AI4DB):利用人工智能技術(shù)提升數(shù)據(jù)庫系統(tǒng)的查詢性能、自治能力等;(2)數(shù)據(jù)庫技術(shù)賦能AI系統(tǒng)(DB4AI):利用數(shù)據(jù)管理技術(shù)支撐大模型訓(xùn)練的高效處理、大模型推理的低延遲、高吞吐優(yōu)化;(3)數(shù)智融合的新型數(shù)據(jù)科學(xué)系統(tǒng)(AI4DS):利用推理大模型、多模態(tài)語義理解與智能體等技術(shù),提升數(shù)據(jù)科學(xué)系統(tǒng)的智能化水平與執(zhí)行性能,有效釋放數(shù)據(jù)價(jià)值。
論文:https://arxiv.org/pdf/2510.16872
代碼:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數(shù)據(jù):https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/





京公網(wǎng)安備 11011402013531號