近日,清華大學計算機系的崔鵬教授團隊攜手穩準智能,正式推出了名為“極數”(LimiX)的結構化數據通用大模型,并宣布該模型將全面開源。此舉標志著中國在結構化數據智能處理領域取得了重大技術突破,并向全球開放了相關技術生態,有望大幅降低各行業應用結構化數據AI技術的門檻。
在工業生產中,結構化數據扮演著核心角色,包括生產參數、設備運行記錄、質量檢測信息及科研實驗數據等,均以結構化形式存在。這些數據的智能處理能力直接關系到產業效率和科研進展,是AI賦能工業制造的關鍵。然而,盡管通用大語言模型(LLM)在文本理解和生成方面表現出色,廣泛應用于內容創作和對話交互等領域,但在處理表格、時序等結構化數據時卻力不從心。LLM在數值比較、計算等基礎任務上易出錯,更難以勝任數據分類、預測及歸因等復雜任務,其準確率遠不能滿足真實行業需求。
“極數”大模型的問世,正是為了解決這一難題。與LLM專注于文本不同,LDM(Large Data Model)融合了結構因果推斷與預訓練大模型技術,既能捕捉結構化數據的內在聯系,又具備強大的泛化能力,可跨行業適配多種任務。具體而言,“極數”大模型能夠支持分類、回歸、高維表征抽取、因果推斷等多達10類任務,在工業時序預測、異常數據監測及材料性能預測等場景中,性能表現甚至超越了最優專用模型,實現了單一模型適配多場景、多任務的通用性突破。
“極數”大模型的核心優勢在技術性能和產業落地方面均得到了充分驗證。在超過600個數據集上的測試中,“極數”大模型無需二次訓練,在準確率和泛化性等關鍵指標上已達到或超越專有SOTA模型。在產業應用層面,“極數”大模型已成功應用于多個真實工業場景,其無需訓練、部署成本低、準確率高及通用性強的特點,贏得了合作企業的高度認可,成為推動工業數據價值轉化的實用技術方案。
“極數”大模型的研發核心力量由崔鵬教授牽頭組建,團隊兼具學術研究與產業落地的雙重優勢。崔鵬教授是我國數據智能領域的頂尖學者,榮獲國家杰出青年科學基金,并兩次獲得國家自然科學二等獎,同時獲評國際計算機協會(ACM)杰出科學家。在基礎研究領域,崔鵬教授提出了“因果啟發的穩定學習”新范式,突破了傳統機器學習在數據分布偏移場景下的性能局限,為AI模型的可靠性與泛化性研究奠定了重要理論基礎。
自2022年OpenAI推出ChatGPT引發大模型技術浪潮后,崔鵬教授敏銳洞察到結構化數據方向大模型技術的發展潛力,迅速將研究方向拓展至結構化數據通用大模型(LDM)領域。依托既有理論積累,團隊攻克了結構因果數據合成、模型結構設計及跨場景泛化等核心難題,最終實現了“極數”模型在多領域任務中的性能突破。
“極數”大模型集成了多種能力,包括分類、回歸、缺失值插補、數據密度估計、高維表征抽取、數據生成、因果推斷及因果發現等,極大提高了模型的通用性。在預訓練階段,“極數”大模型基于海量因果合成數據學習數據中的因果關系,通過條件掩碼建模的方式學習數據的聯合分布,以適應各種下游任務。在推理階段,“極數”大模型可直接基于提供的上下文信息進行推理,無需訓練即可應用于各種場景。
在推理應用環節,“極數”大模型展現出極強的場景適配性與任務靈活性。該模型無需針對特定場景或任務進行額外訓練,即可直接接收表格、時序、圖等多形態結構化數據輸入。用戶僅需明確具體任務類型,模型即可自動完成數據解析、邏輯建模與結果輸出,實現了即插即用模式。
“極數”大模型在分類、回歸等多項結構化數據核心任務上取得了優異性能。在權威數據集Benchmark上,“極數”大模型的性能顯著超越其他模型。“極數”大模型已成功應用于鋼鐵、能源、電力等工業運維領域,以及化工、制造、生物等工藝優化領域,有效提升了設備運行監測、故障預警、材料設計等方面的效率與準確性。
業內專家表示,“極數”大模型的成功落地不僅驗證了通用建模技術在工業場景的適用性,更為解決工業數據應用痛點提供了標準化解決方案,有望推動更多工業領域實現智能化升級。





京公網安備 11011402013531號