
新智元報道
編輯:KingHZ 桃子
真正決定AI上限的,已從「模型規模」轉為「數據質量」。從meta押注數據平臺到xAI裁員轉招「專業AI導師」,全球「數據大戰」全面進入下半場。中國玩家里,澳鵬數據獨占一檔,僅2025年上半年營收達3.06億元。高質量、可追溯、可工程化的數據生產,正成為AI產業的新壁壘。
2025年,大模型持續高速進化,科技巨頭在為「燃料」——高質量數據,展開了激烈的角逐。
數據,不再是幕后的配角,而是直接決定AI成敗的核心戰場。
如今,全球AI圈的「數據大戰」愈演愈烈。
小扎曾豪擲143億美金,一舉挖走Scale AI創始人,并買下49%股權,只為搶占高質量數據的制高點。
這一「世紀聯姻」,原本被視為meta在AI競賽中的殺手锏,卻很快曝出「尷尬裂痕」:
負責下一代模型訓練的TBD Labs,因對Scale AI數據質量大失所望,轉向Surge AI、Mercor等競爭對手。

風波未平,Anthropic又因涉嫌盜用版權數據訓練Claude,被迫支付15億美元「天價和解金」。
這一驚人的數字,創下美國版權糾紛最高賠償紀錄,更宣告了AI「野蠻攫取」數據時代的終結。

與此同時,馬斯克一夜之間,果斷揮刀裁掉500名「通用數據標注員」,轉而大力招募10倍「專業AI導師」。
重點覆蓋了STEM、金融、醫學、安全等領域,直指AI從海量數據堆積,向專業化精煉的深刻轉型。

這些科技巨頭、AI獨角獸們的「數據焦慮」,并非孤例,而是AI生態下的普遍鏡像——
數據,已然成為AI時代的「新石油」。
在國外,Scale AI、Surge AI、Mercor等新銳,憑借精細化標注和專家資源,成為OpenAI谷歌等巨頭的「幕后推手」。
而在中國,這場「數據革命」的先鋒——澳鵬數據,正以本土創新和全球視野強勢崛起。
鮮有人知,中國十大互聯網巨頭,十大自動駕駛大廠,450+頭部企業背后的高質量數據,全部來自澳鵬的AI數據引擎。
2025年上半年業績顯示,澳鵬中國區創下3.06億元(RMB)營收新高,堪稱行業標桿。
預計,全年將突破7億大關。
這不僅僅是一個數字,而是過去五年復合增長率90%的強勁證明。
澳鵬全球高級副總裁、大中國區及北亞區總經理田小鵬博士表示:
我們正見證一場根本性的范式轉變。
AI最終的競爭壁壘,在于能否構建一個強大的「數據閉環」。它以「數據工程」為引擎,能源源不斷地產出稀缺、高質量的數據燃料。
說白了,未來比拼的,不僅僅是算力或模型架構,還有誰能系統性地構造出精準且稀缺的數據。
這正是當前許多行業亂象背后的根源,也為我們指明了AI數據進化的下一個關鍵方向。
從0跨越,半年爆賺3.06億元
或許在許多人眼中,這無疑是「中國版的Scale AI」!
沒錯,但不止于此。更準確地說,澳鵬數據是融合了「Scale AI+Surge AI」雙方優勢的頂尖存在。
成立于2019年,總部位于上海的澳鵬數據,是Appen在中國投資,由本土管理團隊創立并獨立運營的領先數據公司。
它既有Scale AI在自動駕駛和多模態數據上的深度布局,又有Surge AI的高質量標注和垂類精細化服務。
比起另兩家,澳鵬更深諳中國市場的脈搏,提供全球化資源與本地化交付的無縫銜接。
早在2023年,澳鵬營收就已超越國內業內友商,一騎絕塵成為中國數據服務「黑馬王者」。
今年上半年,澳鵬營收已達到3.06億元人民幣,約等于2020年全年的10倍,毫無疑問是國內規模第一大的AI數據服務提供商!

這一「逆襲」并非偶然,而是五年耕耘的厚積薄發。
回顧其增長路徑可以看到,澳鵬精準把握了三大關鍵市場機遇節點:
2020-2021年:智能語音
2022-2023年:自動駕駛
2024-2025年:大模型

2020-2021年,澳鵬數據恰恰抓住了傳統AI業務的爆發期。
當時,語音識別、圖像標注需求井噴,澳鵬憑借全球資源網絡和本土化團隊,迅速打下了基礎。
其營收從2020年3000+萬起步,到21年翻了五倍,達到了約1.6億元。
到了2022年-2023年,自動駕駛技術的快速崛起,成為澳鵬數據的第二個增長引擎。
通過與中國十大自動駕駛頭部公司深度合作,澳鵬營收在此期間持續翻番,2023年達到近2.44億元。

2024-2025年,澳鵬趕上了大模型的發展,并提早布局了垂類大模型。
從ChatGPT到DeepSeek,大模型不僅重塑了全球AI競爭格局,而且給數據服務行業帶來了前所未有的發展機遇。
2024年,澳鵬中國的年增長率達到70%以上,其中大模型和生成式AI相關業務增長率更是高達500%以上。
2025年上半年,乘著國內AI行業爆發的東風,澳鵬數據營收再創新高,背后主要靠五大引擎驅動:
1. 結構性增長紅利
產業重心由「模型競賽」轉向「應用落地」,高質量垂類數據需求持續釋放、優先級上移。
2. 供應商集中化趨勢
在降本增效下,頭部客戶收斂供應鏈;具備綜合能力的服務商承接高難度、高復雜度、高安全項目,集中度提升。
3. 出海數據服務突破
中國互聯網企業加速出海,合規與本地化需求激增。澳鵬依托菲律賓、馬來西亞、越南、歐洲等交付網絡,海外業務占比近40%,提供多語種、跨文化、合規方案。
4. 冷啟動數據產品化機遇
大模型迭代越來越快,成品數據集需求增長。澳鵬把數據做成模塊化、可組合的高品質數據產品,大幅縮短客戶開發周期并維持較高毛利。
5. 高端數據資源與服務壁壘
前瞻布局高端人才與平臺(如醫療專家、專業音樂人、競賽獲獎者等),聯動技術平臺與十大垂類能力,支撐大模型訓練與評估——高質量數據正在決定模型能力上限。
面對這些前所未有的機遇,澳鵬究竟做了哪些事兒,才能在激烈的競爭中脫穎而出?

五大平臺,技術行業領先
在技術浪潮之巔,澳鵬始終以前瞻視野構筑長期技術壁壘,用創新驅動行業變革。
國內首創 端到端 通用預標注大模型,結合項目級微調,實現自動化數據標注回環,效率提升25%。
首創采集-標注-質檢-交付一體化流程,減少冗余存儲,提升數據處理效率30%。
從「第一性原理」出發,澳鵬重構了「數據工程」。
核心是自研的行業級預標注大模型:理解上下文、先行完成高精度初篩。
隨后,人類專家只處理「最難的5%」——歧義樣本、邊界樣本與規則沖突。
最終,修正結果回流,再次優化模型參數,形成「預標注—人工修正—模型優化」的閉環。

這一模式將數據標注效率提升數倍,同時極大降低了人力成本與主觀誤差,實現了效率與精度的雙重飛躍。
AI前沿賽道迭起,大模型、具身智能、自動駕駛……
這些領域對數據的要求,更加苛刻:要質、要量、要多維度,全都拉滿。通用工具,自然跟不上。
對此,澳鵬重金自研,搭起覆蓋多領域的行業級平臺矩陣:
MatrixGo、MediGo、RoboGo、AI Agent,以及大模型智能開發平臺——各管一攤,又能協同作戰。
比如,大模型這條線,提供從多模態數據清洗 → SFT指令微調數據構建 → RLHF偏好標注與評估。

澳鵬大模型智能開發平臺
針對具身智能,機器人的「手眼腦」協調訓練,需要數據作為「燃料」。
多傳感器融合標注、復雜動作軌跡標注、多模態思維鏈標注……澳鵬RoboGo平臺一站式搞定,而Scale AI甚至沒有相關業務。

澳鵬RoboGo具身智能數據開發平臺
AI+醫療應用場景更加專業。
MediGo平臺內置智能標注、多模態融合與私有化部署,為醫療大模型與應用提供高精度、合規、安全的數據底座,覆蓋診療、問診/導診、健康科普等八大核心場景。

澳鵬MediGo醫療大模型數據開發平臺
如今,企業級高精度數據生產平臺MatrixGo,已實現一條鏈打通,加速迭代,穩步優化。
就自動駕駛領域來說,需求更是多樣:激光雷達(LiDAR)3D點云、高精地圖要素提取、4D時序標注……

澳鵬MatrixGo企業級高精度AI輔助數據生產平臺
澳鵬嚴格對標L4+級安全標準,支撐高階智駕算法的落地。
不僅如此,他們還正積極研發下一代數據生產智能體,自主進行數據采集、清洗、標注、擴增生成高質量的數據集。
值得一提的是,澳鵬工程團隊始終秉持「天下武功,唯快不破」的理念,展現出強大的工程化落地實力:
堅持每周至少迭代更新一次產品;
確保能以最快的速度,將最新的技術成果轉化為可用的產品功能。
不難看出,在技術上,澳鵬始終穩居行業前沿。
此外,在成品數據集方面,澳鵬提供800多個專業數據集,包含近10萬小時的音頻資源、50多萬幅圖像和超過一億字/詞的文本數據,涵蓋80多種語言和方言。
在高難度數據集上,通過龐大的領域專家網絡,澳鵬嚴選了1000+個來自不同細分專業領域的行業專家,構建了超10萬條高難度思維鏈數據集,覆蓋數學、計算機、物理、化學、生物、人文科學等學科。
在這些數據的助力下,有客戶模型性能較公開數據基線,提升了40%。
這也是他們未來發展的底氣所在。
AI下半場:高質量數據是關鍵
當前,AI產業正處于一個「超級周期」之中,大模型技術如潮水般涌現。
一直以來,Scaling Law并未失效,也并未放緩。
只要肯砸算力,喂給模型足夠多的高質量數據,LLM能力隨之增強,幾乎沒有天花板。

據Our World in Data統計,從2010年-2024年10月,AI訓練數據量(紫色)約每9-10個月翻倍。
特別是,LLM的訓練數據集,自2010年以來每年增長3倍。

2019年,GPT-2訓練大約用了40億token;2023年,GPT-3則擴展到3000億token;甚至外界推測,GPT-4用了13萬億token。
可以看到,LLM訓練所需的數據規模,早已從傳統的TB級躍升至PB級,甚至幾乎耗盡了互聯網上的公開資源。
統計顯示,AI數據中心市場規模,預計到2032年將達789.1億美元,年復合增長率24.5%。

隨著AI競賽的全面升級,「賣鏟子」的三大數據服務商集體迎來「暴富」時刻,估值直線飆升——
meta砸143億收購49%股權后,將Scale AI估值推至290億美金;
Surge AI尋求10億美元融資,目標估值超250億美元;
Mercor目前就C輪融資進行談判,估值超100億美元。



左右滑動查看
這些鮮活的案例,恰恰凸顯了數據,在AI生態中的王者地位。

數據「黑洞」,正無限放大
NeurIPS 2024大會上,Ilya直言,「預訓練時代即將結束,互聯網數據枯竭,不會繼續增長」。
這一預測,曾一度引爆熱議。但現實中,AI數據真的枯竭了嗎?

顯然不是。在澳鵬數據采訪中,澳鵬數據田小鵬博士的一句話有力地回擊了這一點:
AI缺的不是數據,而是高質量的數據。
現實中,依然存在大量數據未被有效利用。這些數據經過清洗和加工,可進一步作為訓練數據,特別是多模態和領域專業數據。
通用AI歸根結底,是為人類服務,必須滿足不斷變化的信息需求。對于普通人而言,近期信息需求遠高于遠期,這就要求LLM持續接受最新訓練數據。
就如同算力一樣,AI對數據的需求并未減弱,但行業正迎來轉型升級——在規模、質量、復雜度上,發生了巨變。
傳統深度學習僅需要GB到TB級的數據,而到了LLM時代,早已達到了PB級數據。
其次,數據質量的要求,也在水漲船高。早期的95%準確率已不足以滿足需求,如今在專業領域,如量子力學、醫療健康,標注精度需達到99.5%以上。
此外,多模態數據融合,也成為了主流趨勢。
從過去的2D/3D標注擴展到包含時間維度的4D標注,以及文本、圖像、音頻、視頻協同處理,復雜度增加。
這些都對數據服務商的技術能力提出了更高要求。
面對這些新挑戰,澳鵬主要采用了三大招:
1. 前瞻性技術布局與產品化能力
2. 高度靈活的智能化平臺
3. 專業化人才網絡與精準匹配機制
澳鵬提前研發并儲備新興數據生產平臺,比如GUI軌跡采集、多模態標注工具、具身智能平臺;通過即插即用的模塊化產品設計,支持快速部署與靈活適配,顯著提升數據服務效率。
同時,澳鵬構建了標準化成品數據集(如代碼、高難度題庫等),大幅縮短各細分領域模型的開發周期。
而澳鵬智能化平臺,既可快速響應多模態、多場景的標注功能需求,又注重對業務規則的敏捷迭代和精細化管理能力。
這就確保了對于復雜需求的項目,澳鵬能高效、準確地落實和交付。
此外,澳鵬建立了覆蓋多領域的專家資源庫和人才標簽體系,實現了人才與任務需求的智能匹配。
尤其是,在醫學等高壁壘垂類,澳鵬精準調度具備相應資質的專業人員,保障數據交付的質量與專業性。

模型評估>訓練,數據質量>規模
今年4月,OpenAI的研究科學家姚順雨判斷:
AI進入下半場,評估比訓練更重要。

基準測試在快速飽和
在多個基準上,AI早已超越絕大多數人類——然而世界并未因此巨變,至少從經濟學和GDP維度來看如此。
姚順雨將此稱為「效用困境」(utility problem),并視其為AI領域最至關重要的課題。
他認為,AI下半場的玩家將通過將智能轉化為實用產品,打造價值億萬美元的企業。
這是數據行業的巨變:數據質量比規模更加重要!
根據最新數據,截至2025年6月,我國已建設超過3.5萬個高質量數據集,總體量超過400PB,甚至高質量數據集的建設已上升為國家戰略。
通用大模型的發展,給各垂直領域的AI應用提供了可能,即便是OpenAI也逐漸把目光投向了編程等具體領域。
醫療、法律、金融等專業領域的數據標注需要行業專家參與,標注準確率要求從95%提升至99.5%以上。
預計到2028年,醫療健康數據要素市場規模將突破250億元,工業制造領域達302億元。
這就出現了「數據荒漠」與「數據綠洲」并存的現象:
通用數據面臨瓶頸,但高價值垂類數據開發程度仍低。
在許多垂直場景中,缺的是高質量數據,比如自動駕駛極端事故數據,醫療數據難以從公域獲取等。
而「合成數據」恰恰可以填補部分市場空白。
舉個栗子,英偉達開源的基礎「世界模型」Cosmos,可以合成自動駕駛需要的部分數據。很多場景,缺乏的不是數據,而是高質量數據。

在部分場景,真實數據和合成數據可以相輔相成,甚至完全依賴合成數據,比如游戲中的圖片等。
但合成數據總是帶有某種假設,無法顧及到一些特殊情況等,而關鍵行業不容有失。
目前,絕大多數應用場景,還需要用真實數據來訓練AI,要想提高性能,要通過專業人士來生產數據,從而賦能模型。
事實上,現在的數據行業對專業要求越來越高,本科早已不能滿足數據行業的需求,一些企業開始招聘博士去構造訓練數據!

國內的AI數據服務行業,也從人力密集型行業轉型升級為技術密集型行業。
為了應對挑戰,除了開發MatrixGo等五大技術平臺外,澳鵬同樣組建了由行業頂尖專家領銜的垂類團隊:
醫療團隊擁有500余名醫學專家,其中15%持有執業醫師資格;
金融團隊300多名專家覆蓋金融、保險、基金等領域,70%成員具備從業資格認證;
代碼團隊120余名全職工程師,覆蓋主流編程語言;
法律團隊由執業律師和法學專家組成;
數理團隊由全國競賽獲獎者組成;
音樂團隊擁有500余名兼職音樂人;
多語言團隊涵蓋200+種語言;
TTS團隊擁有全球數十個國家、數千小時采集經驗;
文學團隊匯聚985/211高校人才;
美學團隊則由50余名專業設計師構成。
醫療是數據門檻最高的賽道之一:多群體代表性、合規紅線、周期/成本壓力并存。
為此,澳鵬用「平臺+專家」雙軌方案破題:
數據工程平臺集成智能標注、多模態融合及私有化部署能力;
專家網絡確保標注準確率逼近臨床級要求。
全程嚴格對齊GDPR、ISO等標準,并通過標準化SOP把項目周期縮短30%—50%。
結果是,更快、更準、更合規的醫療AI數據底座,加速產品落地與國際化部署。
AI的未來,數據的未來
過去,外界乃至AI業界往往聚焦于算法、算力突破,卻對數據行業抱有諸多刻板印象和誤解。
許多人會認為:數據行業沒前景、「數據荒漠」馬上來了、數據標注沒有技術含量,只是體力活......
實際上,事實遠非如此。
這個行業正以兩位數年增長率迅猛前行,而澳鵬數據作為領軍者,更是連續6年保持增速,一舉拿下中國市場份額第一的「寶座」。
曾經的那些誤解,早已站不住腳:無技術平臺寸步難行,純人工無法應對復雜需求。
技術平臺、數據工程能力,早已成為行業的核心競爭力。
如今,AI正在由感知走向認知與推理,能力從2D靜態識別擴展到4D時空建模,實現多模態融合。
隨之而來的是,數據與算力的數量級提升,質量、可追溯與精細化成為剛需。
一旦自動駕駛、醫療等場景取得有效突破,就能在全球快速復制、鋪開應用。
要支撐這一進程,需補齊兩類基礎設施:
面向世界模型的高置信度物理世界數據,以及支持企業與個人安全對接的多模態內容平臺。
數據行業由被動供給,轉向共建認知體系與評測標準。
依托全球資源網絡、平臺化研發與AI原生流程改造,在AI浪潮中澳鵬將持續突破。
展望未來3-5年,澳鵬數據戰略重點清晰:深化全球資源網絡、垂類深度,以及平臺產品化的轉型。
而他們下一個目標是:中國區2030年前營收超20億元。
采訪中,澳鵬全球高級副總裁、大中國區及北亞區總經理田小鵬博士認真分享了指引其未來的三大原則。
首先,數據服務要全球化,以合規的方式完成數據交付。這不僅是風險防控,更是企業出海的競爭力。
其次,要經營客戶的廣泛度和復雜度,建立真正的護城河。
也就是說,不止要做數據標注者,更要做數據咨詢師,提供超出標注的增值服務,如模型評估和流程優化。
最后,要建設好平臺。依靠「技術+人力資源」雙平臺,澳鵬提供比友商更有競爭力的服務。
只要繼續堅持原則、保持過去的增速,在澳鵬看來,下一個20億的「小目標」絕非空談。





京公網安備 11011402013531號