![]()
每天上班時間,在位于遼寧沈陽數字經濟產業園的遼寧宏圖創展測繪勘察有限公司里,數百名標注員都會專注地在屏幕上標記自動駕駛場景中的車道線、行人、車輛與路旁欄桿。這火熱的工作場景,正是沈陽數據標注產業加速崛起的生動縮影。2024年5月,國家數據局發布首批承擔數據標注基地建設任務的7個城市名單,并發放了任務書,沈陽名列其中。一年多以來,沈陽圍繞6方面要求,積極推動人工智能大模型向裝備制造、醫療健康等領域深度拓展。
上游新聞記者從沈陽市數據局了解到,截至今年9月底,基地標注數據超過7127TB;形成134個行業高質量數據集,參與編制國際標準1個、國家標準2個、行業標準2個;引育數據標注企業65家,全市數據標注從業人員有11800余人,拉動數據標注產業規模約24.1億元。
人工智能的“教科書”
當前,隨著數字化、智能化時代的到來,數據標注服務產業正從幕后走向臺前,已經成為推動人工智能發展的重要環節。
什么是數據標注?為什么它如此重要?
數據標注是指,對未經處理的原始數據添加說明、解釋、分類或編碼的過程,以便數據可以被人工智能算法所理解和使用。這一過程主要是通過人工或半自動的方式,針對特定數據集進行標注,以形成具有特定格式的結構化數據。通過高質量的數據標注,人工智能系統能夠學習到更為豐富和真實的特征信息,進而提升其在各類應用場景中的表現力和泛化能力。狹義的數據標注旨在為人工智能提供標準化“教材”,助力機器實現更為精準和高效的處理與決策。
“數據標注是現在比較熱門的行業,主要是用來進行人工智能的訓練,就像教人成長一樣。”2025年沈陽青年工匠,遼寧宏圖創展測繪勘察有限公司(以下簡稱:宏圖創展)數據標注高級工程師袁銘陽介紹。
宏圖創展是遼寧省瞪羚企業、“專精特新”企業,專注于智慧城市、高精度導航、無人駕駛、數字孿生、元宇宙等未來數字經濟產業的關鍵技術領域。
“實際上,眾多領域都有數據標注的貢獻,比如傳統測繪地理信息就是一種數據標注,不同的是過去的數據是給人看的,現在的數據標注是給AI看的,簡單來說,數據標注就是教會AI感知具體的世界萬物。”袁銘陽介紹。
數據標注在不同行業領域的應用場景廣泛且深入,為人工智能產業的發展提供了堅實的基礎和強大的動力。行業賦能重點圍繞科學、制造、農業、能源、交通、金融、醫療、教育、消費、互聯網治理、人力資源領域、公共安全等行業領域典型應用場景。
9月27日,記者在宏圖創展看到,數百名標注員正專注且快速的滑動鼠標,在電腦屏幕上標記自動駕駛場景中的車道線、行人、車輛與路旁的欄桿。“這一層樓有約五六百名員工,為車企和圖商提供核心數據服務,必須保證精準。”袁銘陽介紹,咱們老百姓日常開車用到的自動輔助功能,比如自動停車、自動入庫,還有能幫著穩住行駛路線的車道保持功能,其實都離不開數據標注。數據標注員就像智能交通的“制圖師”,每一個標注點都是未來自動駕駛系統的“路標”,一絲一毫的偏差都可能埋下安全隱患。
沈陽盛科御曠科技有限公司(以下簡稱:盛科御曠)是一家智能網聯與自動駕駛科技型創新企業,在盛科御曠CEO陶永亮看來,數據標注能將未經處理的原始數據,加工轉化為可供AI大模型深度學習與訓練的“優質燃料”。“AI就像我們教的學生,數據標注就像為AI的編寫的一本教科書。”
正如業內人士所言,有多少標注就有多少智能。沒有高質量的數據標注,就沒有可靠的AI模型。
![]()
宏圖創展的工程師在進行數據標注工作。圖片來源/受訪者供圖
大模型催生“新剛需”
作為智能駕駛領域的數據標注需求方,盛科御曠對行業過往的技術局限有更為切身的感觸。“過去的智能駕駛系統智能化程度偏低、比較笨,即便感知到了外界的環境信息,車腦也只能嚴格遵照程序員預先編寫的固定程序給出反饋,本質上是‘程序員設定什么,它就執行什么’,缺乏自主思考,僅能實現簡單的語義理解。面對實際道路中的復雜路況更難以有效應對。”陶永亮認為,在感知層面,數據標注與AI的結合顯著提高了感知精度與魯棒性。
在他看來,數據標注能做的遠遠不止“分類”“畫框” 等基礎操作,更復雜的標注可以幫助大模型進行行為意圖預測,模擬人類駕駛員對行人和其他車輛下一步動作的判斷——這是AI智能化的典型體現,能讓自動駕駛機器具備更接近人類的決策思維。
中國信通院最新發布的《數據標注產業發展研究報告(2025年)》指出,隨著大模型的蓬勃發展,數據標注需求呈現海量增長。2018年Open AI GPT-1大模型數據量為4.6GB,2025年Qwen2.5Max大模型數據量超過了20萬億tokens,可見大模型數據需求增長近1.4萬倍。同時大模型的數據來源極為豐富,涵蓋文本、圖片、音頻和視頻等多種形式,包含海量的知識信息,涉及各類專業領域和多種語言。
大模型的數據標注需求貫穿全生命周期,各階段呈現顯著差異。在預訓練階段,標注需求側重于海量弱標注或無監督數據的清洗與去噪;監督微調階段要求高質量指令數據的精準標注;強化學習階段依賴人類偏好反饋標注;持續學習階段的數據標注更強調動態更新能力。
“邏輯是這樣的:算力是基礎前提,決定的是AI發展的下限,其次還需要有模型,而數據是上限,尤其是高質量的數據集與數據標注。”袁銘陽介紹。
“數據標注更是模型迭代優化的關鍵支撐,這一過程本質是反向驗證:通過標注數據的反饋,判斷當前研發的模型是否適配實際場景需求,進而針對性調整優化,推動模型持續迭代。這一過程就構成了閉環數據的驅動迭代,數據標注既是‘教科書’ 又是‘考試卷’。”陶永亮說。
在業內人士看來,沈陽數據標注產業有明顯優勢,相關企業也有迫切發展需求。“就智能駕駛數據標注來說,沈陽本身就是地理信息測繪的大市,同時有著多家類似宏圖創展的供給側供應商。數據標注涵蓋了太多領域,未來的產業發展,還需要結合城市自身的結構特點,找到牛鼻子才行。”盛科御曠CEO陶永亮說。
記者采訪了解到,在沈陽還有許多類似的宏圖創展的數據標注企業,為相關行業的發展提供了源頭活水。例如:截至今年5月,中德(沈陽)高端裝備制造產業園標注15TB非結構數據,為東北制藥等企業訓練工業質檢模型;“碳卡智造”構建的10.2TB皮膚病理數據集應用于血管炎輔助診斷平臺;“集鎂科技”影視劇元數據集入選北京國際大數據交易所推薦名錄。
2024年5月,國家數據局公布了7家全國數據標注試點基地名單,遼寧沈陽為其中之一,開始探索發展數據標注這一新興產業。今年4月,第八屆數字中國建設峰會上,國家數據局發布了全國47個數據標注優秀案例,7個試點城市共入選11個案例,包括宏圖創展在內,沈陽市入選3個案例,數量位列第一。
![]()
廣義的數據標注產業定義。圖片來源/《數據標注產業發展研究報告(2025年)》
產業規模超24億元
沈陽市數據局最新數據顯示,截至今年9月底,基地標注數據超過7127TB;形成134個行業高質量數據集,參與編制國際標準1個,國家標準2個、行業標準2個;引育數據標注企業65家,全市數據標注從業人員11800余人,拉動數據標注產業規模約24.1億元。
作為7個試點城市之一的沈陽是如何發力,推動數據標注產業高質量發展的?
9月30日,沈陽數據局數字經濟處處長康曉輝接受上游新聞記者采訪時介紹,在技術創新上,沈陽制定《沈陽市數據標注技術創新指導意見》,在國內首次提出數據標注技術指導性意見,率先提出10大技術創新方向,引領數據標注技術發展,推動沈陽市數據標注技術突破創新。作為全球首個基于醫學影像大模型研發的多模態醫學影像數據標注平臺,沈陽東軟醫療多模態學影像數據標注平臺打破醫學影像標注工具金標準數據集嚴重依賴國外的瓶頸,集數據、模型、工具、場景為一體,實現標注工具自主可控及國產化替代,標注質量提升30%且成本降低60%以上。
在生態培育上,當地成立沈陽市數據標注產業聯盟,吸引數據標注產業鏈153家企業入盟,引導企業資源整合、業務聯動、優勢互補、成果共享,提升行業內影響力和業務承接能力。組織32家本地龍頭企業和數據標注重點企業,組建沈陽數據標注產業集團(聯合體)。為了鼓勵數據標注產業發展,沈陽數據集團注資控股本地民營數據標注龍頭企業遼寧宏圖創展公司。這不僅是國有企業市場化收購數據標注民營企業的創新實踐,也助力了數據標注產業關鍵技術攻關和生態培育,增強了沈陽基地企業市場競爭力。9月10日,全國首家大模型(L4級)高端數據標注項目——沈陽火山AI數據產業生態基地落戶遼寧沈陽。
在人才支撐上,沈陽組織東北大學、遼寧大學、中科院沈陽計算所等高校和重點國企,組建沈陽市人工智能數據產業研究院和數據產業專家委員會,匯聚全省數據標注的專家、科研力量、高校人才,為數據標注產業發展提供技術和人才支撐。市殘聯、沈陽開放大學聯合遼寧京數云大數據科技有限公司瞄準“招生+技能培訓+就業”的閉環教育模式,推進校企合作打造殘疾人教育訂單式培養模式。累計培訓殘障學員 250余人,殘疾人員工穩定在崗率 92%,處理標注數據超100TB。
康曉輝介紹,沈陽將強化技術創新應用,重點突破多模態數據標注、智能標注算法、自動化質檢、跨模態語義對齊等技術難題,掌握一批自主可控的數據標注算法、先進技術與產品,提升數據標注產業核心競爭力。同時,持續引進人工智能行業領軍企業在沈陽基地開展數據業務,設立數據標注企業、研發機構或區域業務中心等。培育20家數據標注“專精特新”企業,支持提升場景化數據采集能力、特定領域標注能力,打造具有國內競爭力的行業解決方案服務商,提供貼合垂直場景的高精準定制化數據標注服務。
上游新聞記者 張瑩





京公網安備 11011402013531號