11月14日,大模型 大未來——2025年大模型應用場景交流全國行·深圳站暨大模型數據要素建設行活動在深圳舉辦。
本次活動由紅星傳媒、深圳河套學院、中國移動數智化部聯合主辦,中國人工智能產業發展聯盟(AIIA)數據委員會、深圳市人工智能協會以及深圳市翻譯協會協辦。
來自高校、行業協會、行業機構及中國移動、順豐科技、金正優智科技、得理科技等10余家行業企業參會,圍繞“模型應用”、“高質量數據集建設”、“場景實踐”等內容開展了深度交流。
中國信通院人工智能研究所李蓀在主題演講中指出,人工智能正從“AI賦能”走向“AI原生"。"當AI原生成為核心邏輯,數據已從'輔助輸入'升級為核心生產要素,即AI原生數據。”
![]()
政策端來看,國家數據局、工信部等持續完善頂層設計,《“數據要素x”三年行動計劃》《國家人工智能產業綜合標準化體系建設指南(2024版)》等文件密集出臺;國務院國資委發布首批30項央企高質量數據集;北京、上海、山東、武漢、南京、杭州、呼和浩特、蘇州等11地在2025年2—4月集中發布獎補政策,激勵數據集供給端建設。截至目前,沈陽、保定等7個國家級數據標注基地已建成數據集524個,規模超29PB,服務大模型163個,數據標注產業邁入快速擴容期。
活動現場發布的一組數據顯示,全球大模型訓練數據量自2010年后呈指數級增長,2025年已逼近101? Token量級;但數據密度在2024年出現“見頂回落”——以Qwen系列為例,Qwen 2.5-32B密度為554,Qwen 3-Max僅36,下降近15倍。“規模競賽”進入“質量競賽”階段,高質量數據集成為人工智能應用升級的核心要素。
AI原生強調從系統設計、代碼實現到應用場景均以AI技術為出發點和驅動力,實現“脫胎換骨”的范式重構;數據層、技術層、應用層同步躍遷,形成動態關聯、多模態融合、實時閉環的“知識網絡”,為大模型持續演進提供“燃料”。
面向AI原生的數據工程體系成為破解瓶頸的關鍵。中國信通院提出“靜態管理→動態學習、數據治理→數據智能治理、一次性清洗→持續評估優化”三大轉變,構建貫穿采集、治理、反饋與評估的全流程原生數據工程,讓數據與模型共同演化、生長。
目前,其“人工智能數據集質量評估體系(ADAQ)”已開發60個質量評估算子,覆蓋完整性、規范性、準確性、及時性、一致性、稠密性、多樣性、均衡性、相關性、原創性、可溯性、可訪問性等12個一級指標、36個二級指標,自動化評測率達75%,為高質量數據集建設提供可量化、可落地的“標尺”。
劉謐 紅星新聞記者 李偉銘





京公網安備 11011402013531號