南方財經記者程浩 東莞報道
當前,數據已成為驅動產業變革的核心生產要素,而高質量數據集則是釋放數據價值的“源頭活水”。作為改革開放的排頭兵、先行地、實驗區,廣東立足實際,全力打造數智化發展新高地,率先舉辦高質量數據集創新大賽。
12月2日,廣東省首屆高質量數據集創新大賽啟動儀式在東莞舉行,東莞市數據標注產業園及六大賦能平臺在活動現場正式發布。此次大賽以“數聚灣區,智創未來”為主題,采用“揭榜掛帥”機制,推動高質量數據集的場景發掘、建設供給、規范流通、創新應用與成果轉化,將為粵港澳大灣區數字化轉型注入強勁動力。
廣東省政數局局長王天廣在致辭中表示,高質量數據集是驅動人工智能模型迭代升級、賦能千行百業的“核心燃料”。廣東舉辦此次大賽將立足“小切口、大場景”,從真實需求出發,推動數據在關鍵領域創新應用,以賽促用、以賽促轉、以賽興業,全力搶占數智化發展制高點,合力打造數據要素創新策源地、成果轉化試驗田和產業集聚示范區,營造協同共贏的數據生態,助推全省數據產業邁上新臺階。
作為科創制造強市,東莞規上工業企業數量穩居全國前三,兼具豐富的AI應用場景與海量的工業數據兩大優勢,是國家人工智能應用中試基地。
“數據就像石油,不能光采不煉。”東莞市政數局局長張志云向南方財經記者介紹,當前,東莞正以建設“灣區數谷”為抓手,率先布局數據標注等基礎環節,著力建設全國首個規模化邊端智算網絡,實現對工業產線數據的深度挖掘、高效加工。
本次高質量數據集創新大賽通過“揭榜掛帥”賽事機制,創新性采用“分期發榜、全年辦賽”模式,聚焦工業制造、醫療健康、科技創新、城市治理、交通運輸等重點領域發展需求,先找場景、再找數據,以賽事為載體和抓手,探索建設一批高質量、可復用的數據集,為人工智能模型訓練和行業應用提供“燃料”,率先在全國實現“從0到1”的探索跨越。
![]()
啟動儀式上,來自能源、生物醫藥、金融、交通、低空、教育等重點領域的首批高質數據集賽題正式“發榜”,南方電網、廣州(國家)實驗室、廣東省人醫、平安財險、佳都科技、金域醫學,廣東泰一、廣東職教橋、奧海科技等單位,發出首批高質量數據集需求“發榜單”。
接下來,大賽將通過“1套發榜機制+3個競賽階段+N場供需對接會”的“1+3+N”組織體系,構建“數據供給—技術研發—場景落地—產業升級”的完整閉環。通過以賽促用、以賽促融、以賽促產,在推動成熟數據應用場景復制推廣的同時,更好挖掘低空經濟、工業互聯網等新興領域的數智潛力,充分發揮高質量數據集的賦能作用、有效釋放數據要素的寶貴價值,為全國一體化數據市場建設、數據產業生態的繁榮發展,積極貢獻“廣東經驗”。
高質量數據集是決定大模型質量的關鍵因素,也是數字產業進步的核心基石。啟動儀式的分享環節,三位行業專家分別帶來高質量數據集的洞察與實踐。
工業和信息化部電子第五研究所人工智能中心副主任李帥介紹,數據預處理、數據標注、數據合成以及數據質量評估是構建高質量數據集過程中環環相扣的核心環節,它們通過系統化的協作,共同確保數據集能夠精準支撐大模型的訓練與應用。
李帥提到,電子五所正聯合數據標注基地、行業龍頭企業及人工智能服務商等多方力量,建設高質量數據集測評服務中心,為高質量數據集提供標準化生產流程和權威質量認證。
百度自動駕駛業務運營負責人沈健則聚焦具身智能領域,分享了數據采標室的解決方案。沈健認為,數據是具身智能行業走向通用智能的巨大瓶頸,而獲取高質海量訓練數據正是人形機器人破局的關鍵。
據了解,百度智能云能夠依據客戶采集需求,定制化建設各類具身智能的真實采集場景,支持場景運營和管理,開展任務定制、長期穩定、規模化采集作業,并通過采標管訓全流程平臺支撐模型能力提升。
中電信人工智能科技公司業務發展部副總經理魏文博總結了高質量數據集建設的諸多要點,包括數據安全與合規、一體化平臺工具鏈支撐等。魏文博表示,中國電信正在構建“一平臺三體系”新范式,通過建設運營一體化平臺,支撐數據集建設、質量評估和數據安全三大體系,賦能高質量數據集的可控、高效、合規建設與價值釋放,系統化破解數據集建設難題。
隨著多方技術力量的持續投入和實踐經驗的不斷累積,廣東高質量數據集建設正從單點突破邁向多點開花,這將為人工智能產業的創新發展提供更加堅實的數據支撐。





京公網安備 11011402013531號