12月17日至18日,由下一代互聯網國家工程中心主辦聯合澳門科技大學共同主辦的2025全球數據技術大會(GDTC)在北京舉行。華為公司副總裁、數據存儲產品線總裁袁遠發表《構建先進數據基礎設施,激活AI時代數據價值》主題演講。
觀察者網了解到,這是袁遠首次以華為數據存儲產品線總裁身份對外亮相,而該產品線前任總裁周躍峰已擔任華為公司高級副總裁、華為云CEO。
袁遠提到,中國已是全球數據大國,但數據語料建設仍面臨關鍵挑戰:我國數據留存率僅2.8%,需從技術層面解決海量數據“存不下”、存儲成本高和能耗大等難題;行業高質量數據稀缺,以醫療模型為例,我國模型訓練數據量只有西方領先國家的10%左右;大量城市與企業數據仍儲存在“孤島”上,數據共享率不足25%;全球年度泄露數據已達驚人的471.6億條,給各行業帶來巨大風險,數據泄露成為當前數據跨境流動的核心命題。
![]()
華為公司副總裁、數據存儲產品線總裁袁遠發表演講
以下為袁遠演講全文:
各位嘉賓,大家好!今天大會的主題是“共筑智能時代的新型數據基礎設施”。我想借此機會,分享一下華為在數據基礎設施方面的思考與實踐,希望能為產業界推進高質量數據集建設、用好AI有所幫助。
站在Agentic AI新時代,各行各業都在更加深度、全面地使用數據,使其成為AI訓練與推理的語料與知識,進而創造價值。我們看到:用于AI的數據量同比增長41%;數據資源共享日益活躍,更多行業和技術企業選擇進入數據市場,通過擴充數據資產的規模、精度與多樣性,在智能化競爭中實現領先;高質量數據集建設提速,截至目前我國已建成超過500PB高質量數據集;AI的快速發展鞏固數據要素價值地位的同時,更推動傳統IT架構從“以算力為中心”向“以數據為中心”轉變。
中國已是全球數據大國,但數據語料建設仍面臨關鍵挑戰:我國數據留存率僅2.8%,需從技術層面解決海量數據“存不下”、存儲成本高和能耗大等難題;行業高質量數據稀缺,以醫療模型為例,我國模型訓練數據量只有西方領先國家的10%左右;大量城市與企業數據仍儲存在“孤島”上,數據共享率不足25%;全球年度泄露數據已達驚人的471.6億條,給各行業帶來巨大風險,數據泄露成為當前數據跨境流動的核心命題。
依據國家數據局《可信數據空間發展行動計劃(2024—2028年》的指引,應從城市、行業、企業等方面加快建設可信數據空間,釋放數據要素價值。基于此,結合華為多年實踐與理解,我們對數據基礎設施的構建有以下建議。
首先,在城市層面,宜發揮城市樞紐作用,打造先進存力中心,推動公共數據和行業數據的匯聚、治理和可信流通,支撐城市數字經濟發展。近年來,我們已與多地開展合作實踐,比如:助力一些城市匯聚50PB公共數據,服務了超60家本地企業,發揮數據儲備和流通價值;幫助部分城市構建高質量汽車行業數據集,支持智能網聯汽車發展;并通過“聚數、治數、供數、用數”,打造了環京津數據要素產業園,有效帶動地方經濟增長。
其次,在行業層面,應建設數據共享協作平臺,推動數據從分散利用到智能融合,讓高質量行業知識庫賦能生態。以某國家級育種實驗室為例,我們幫助構建全國一體化育種數據基礎設施,讓百PB跨域數據可管、可視、可流動,依托統一數據標準和一站式數據工具鏈,提升4倍數據標注和模型微調效率,打造智慧育種智能體,助力農業科研創新。
最后,在企業層面,企業作為最早開始重視、挖掘數據資產的先行者,我們需助力建設AI數據湖底座,加強全域數據共享、高效管理與敏捷使用。以自動駕駛為例,通過AI數據湖整合路測、仿真、高精地圖等多樣數據,提供百萬車輛數據高速接入、EB級數據高效管理、全球站點數據跨域流動等關鍵能力,讓環境感知、行人避讓、語音助手等多種智能體協同,保障極端條件與特定場景下行駛安全。
先進數據基礎設施建設需要持續的技術創新。未來,我們將加大投入,迭代、引領AI數據湖發展方向,助力更多城市、行業、企業逐步解決收數、存數、治數、用數問題。具體而言,一方面,我們將繼續完善并開源開放端到端的AI工具集,豐富我國AI工具生態,我們相信只有基于實際可獲得的工具打造的智能化能力,才是長期可持續的。另一方面,依托全局數據管理技術,我們將深入研究可信數據跨域流通過程中的合規治理、安全流轉與跨境審計。同時,推動數據存儲技術發展,降低向量、標量等新型數據存儲范式的儲存成本,持續釋放數據要素價值。
面對AI所帶來的深刻變革,我們將始終與各方攜手共進,匯聚數據力量,共同加速我國AI落地。謝謝大家!





京公網安備 11011402013531號