![]()
出品|虎嗅科技組
作者|李一飛
編輯|陳伊凡
頭圖|AI生成
“AI原生100”是虎嗅科技組推出針對AI原生創新欄目,這是本系列的第「31」篇文章。
兩個滑鐵盧大學生,靠數據標注平臺,在半年里賺了290萬美金,并在成立一年多的時間,撬動了1770萬美元(約合人民幣1.2億元)的融資。
![]()
Serena Ge和她的聯合創始人
這就是Datacurve,一個試圖挑戰Scale AI的年輕公司。
高質量數據領域的爭奪已經成為了AI里最激烈的戰場。催生了Scale AI、Turing、Surge以及Mercor這樣的公司,Scale AI作為這個領域絕對獨角獸,估值已經達到200多億美元,我們的“AI原生100”欄目之前寫過的Turing這家公司,估值達到22億美元。
Datacurve區別于這些數據標注公司一個很重要的點,也是我們之所以在欄目中介紹這家公司的原因是,他們選擇了一個“游戲化標注”的方式,
它搭建了一個名為Shipd的平臺,將算法題、調試任務、測試用例等中高難度編程挑戰打包為“通關任務”(Quests),明碼標價邀請工程師參與完成,任務通過后即可獲得現金報酬。這些經過工程師驗證的數據最終會被售賣給AI公司或模型實驗室,用于訓練和微調大模型。
這種“賞金獵人”的方式給Datacurve積攢了人氣。2025年10月,Datacurve宣布完成1500萬美元A輪融資,累計融資總額達到1770萬美元。這輪融資由Chemistry的Mark Goldberg領投,DeepMind、Anthropic、OpenAI等AI一線公司員工也出現在投資名單中。
虎嗅和業內投資人聊過數據標注公司的模式,對這些公司來說,除了數據質量,組織管理也至關重要,這些負責標注的人就類似一種“零工”的形式,如何有效管理這些數據標注師,通過精細化管理,讓這些“零工”參與到數據標注中。
如何用非金錢誘惑撬動頂尖工程師?
Datacurve在官網提到,旗下Shipd平臺目前已經吸引超過一萬四千名工程師注冊參與任務。
這個數據引出了一個關鍵問題:在報酬遠低于正式開發工作的情況下,為什么仍有如此多具備中高級技能的工程師愿意投入時間與精力參與這樣一項看似數據標注的任務?
在公開采訪中,CEO Serena Ge給出了答案,她強調金錢并不是最強的驅動力,真正吸引工程師留下的是平臺提供的挑戰感、游戲感與參與體驗。她將Shipd定義為“a consumer product, not a data labeling operation”,Shipd是一個供玩家消費和體驗的產品,金錢只是附加獎勵。
為了實現這一理念,Datacurve從以下幾個方面優化了用戶體驗,提升了平臺的吸引力:
其一,任務本身具備足夠的技術挑戰性。平臺通過設定多層驗證機制,包括自動測試、同行評審與專家審核,確保數據集達到研究級標準。這種設計既提高了數據質量,也提升了工程師的技術門檻,從而增強了他們面對任務時的解題動機。
![]()
Shipd登錄頁
其二,平臺引入了“賞金獵人”形式與游戲化結構。Shipd中的任務被包裝為“Quests”,涵蓋算法挑戰、調試任務、UI/UX生成等內容。平臺設有排行榜、連勝獎勵與任務等級,參與者在其中既是解題者,也是競技者。這些機制讓任務更像一場技術副本,而非一份重復工單,也為工程師提供了可量化的聲望積累。
其三,Shipd試圖搭建一種工程師為中心的社區文化,平臺多次強調engineer-first culture,力圖為高技能參與者提供一個有歸屬感、認可度與專業認同的生態環境,而非單純的任務派發系統。
這種“游戲化+精英制”的設計,讓Shipd與傳統平臺形成了鮮明對比,它并不試圖讓所有人都能參與,而是挑選能完成特定類型任務的那一類人。從工程師側來看,這種機制既好玩、有成就感,也有現實收益;從平臺側來看,它在數據質量這件事上建立了篩選機制,形成了獨特的護城河。
Shipd成了一個介于挑戰、游戲、交易與知識生產之間的混合型產品,它靠的不是更多的人,而是更強的人和更優質的數據。
產品理念與冷啟動過程
Datacurve的起點是從需求倒推回來的。
Serena Ge曾在Cohere實習,參與大語言模型的訓練項目。Cohere是一家從事大型語言模型和AI產品開發與商業化的人工智能技術公司,致力于提高內部模型的推理能力和代碼生成能力;相比之下,Datacurve則專注于外部數據收集,致力于構建更高質量、更具挑戰性的編碼數據集。兩家公司的性質差異決定其天然是上下游合作伙伴,而這種技術合作也延續到資本層面,Cohere后來成為Datacurve的早期投資人之一。
在Cohere的實習經歷令Serena Ge很快意識到一個現實困境:模型能力越來越強,但高質量編碼數據的供給卻始終是瓶頸。傳統標注方式無法滿足模型所需的復雜度與專業性,而缺失的數據又像一塊空白拼圖,直接影響模型的實際能力。
如果把這些缺失的數據變成具備挑戰性質的題目,把數據標注變成以游戲化平臺激勵工程師貢獻數據呢?
在這樣的想法推動下,Serena和Charley Lee嘗試搭建了一個簡化原型并在幾個技術社區嘗試發布任務、收集回應。他們發現這些測試任務很快吸引了一批對另類編程挑戰感興趣的工程師,而這些人給出的反饋遠遠超出他們預期:不僅認真完成任務,還提出了改進建議,并希望能獲得排行榜積分。
這一嘗試為Datacurve打通了進入硅谷最大孵化器——Y Combinator的大門。2024年冬季,Datacurve正式入選YC冬季項目中,并在這期間完成了平臺早期版本的開發、跑通了任務的評審機制,也驗證了平臺在工程師群體中的吸引力。
![]()
YC孵化企業頁面
虎嗅根據公開資料整理
Serena始終認為“Shipd是面向工程師的消費者產品,而不是數據標記操作。”他們將大量精力投入在用戶體驗優化上,每一處都朝著“讓人愿意來、愿意留”的方向打磨。平臺上線不久就已支付出超過100萬美元的賞金,吸引了來自亞馬遜、AMD等企業的高級工程師參與,并獲得正向反饋。
在打通數據收集與社區運營這兩個核心環節后,Datacurve開始推進商業化路徑。在產品啟動初期,Datacurve聚焦于與高端AI實驗室和工具型初創公司建立合作,包括OpenAI、Anthropic等基礎模型實驗室,以及面向開發者的智能編碼工具團隊。依托早期投資人網絡與口碑傳播,Datacurve逐步實現高質量數據的對接與銷售。
Datacurve成立于2024年,不到一年便完成種子輪與A輪,總融資達1770萬美元,成功實現了從融資到打通工程師、獲取高質量數據,再到對接頂級客戶,隨后融資增長的閉環,呈現出一條清晰的初創公司成長路徑。
代碼歸誰:版權風險與合規機制
在Datacurve的平臺上,工程師提交的每一份代碼最終都會被打包進高質量數據集售賣給AI公司。這不由讓人思考:代碼的歸屬權到底是誰的?這些數據真的安全嗎?這并非單一平臺的問題,而是整個數據標注行業的普遍挑戰。
作為數據標注領域的代表性公司,Surge AI采用human-in-the-loop機制,由領域專家配合定制化模型共同完成標注,確保輸出不僅精準,還具備較好的上下文理解力。面對敏感或模糊任務,平臺通常安排多輪人工復核,盡量減少偏差與誤判。在合規層面,Surge AI提供可審計的數據流程,支持客戶對數據使用路徑進行追蹤與管理。盡管如此,Surge AI也曾被爆出內部文檔泄露,可見其仍存在監管與安全漏洞。
Datacurve的解題思路則是在機制上做了幾層防護:
第一層是貢獻者聲明。每個工程師在提交代碼前都要簽署一份承諾書,保證自己提交的內容是原創的或者已經擁有足夠的使用授權。
第二層是自動抄襲檢測。平臺會用工具自動掃描代碼內容,識別是否存在復制、篡改或來自敏感源的內容,避免搬運工混進來。
第三層是共識評審機制。一個任務的解決方案不只由平臺驗收,還會交給多位工程師打分。這種同行互評,既提高了解法質量,也相當于多雙眼睛在幫忙看有沒有版權風險。
除此之外,Datacurve還從源頭控制任務來源,也就是優先發布來自受控倉庫的題目,避免涉及企業私有代碼。有些任務甚至要求工程師在沙盒環境中從零寫起,不允許修改已有代碼。
在法律層面,Datacurve也做了清晰的劃分。平臺通過“數據合同”和“許可協議”來定義數據的使用范圍、歸屬權和責任邊界,無論是客戶還是貢獻者,合作的前提都是雙方知道自己在交什么、買什么、承擔什么。
當然,機制做得再多,公司可能面臨的版權風險在數據走向規模化和跨機構流通的過程中依然不能忽視。目前來看,Datacurve的做法已比傳統數據平臺更扎實,只是這些風險防范措施是否能撐得住未來復雜的版權訴求,仍待實踐驗證。
亞裔聚集的數據標注領域
在數據標注領域,聚集了亞裔創始人的身影。
虎嗅和業內投資人探討過這個問題,數據標注領域是個苦活兒,亞裔努力的特質可能更適合這個行業。
無論是已經在行業領先的獨角獸巨頭Scale AI,還是將專家網絡轉為訓練工廠的Mercor、Turning,亦或是剛剛嶄露頭角Datacurve,我們都能看到一群來自不同文化背景的亞裔面孔。我們整理了部分代表性的團隊成員和他們正在推動的產品方向。
公司 成立時間 核心團隊亞裔成員 公司背景(原生數據公司/HR公司轉型) 專注方向(精細高端化/一站式平臺) 核心業務 核心競爭力 Scale AI 2016 Alexandr Wang(CEO)、Lucy Guo(聯合創始人) 原生數據公司 一站式平臺 數據標注、模型評估與平臺能力;深耕自動駕駛、生成式AI、國防領域;設有安全對齊實驗室 深耕自動駕駛、生成式AI、國防等垂直領域;設有安全對齊實驗室 Turing 2018 Jonathan Siddharth (CEO)、Vijay Krishnan (CTO) 人力資源公司轉型 精細高端化+人才云一體化 人才云服務、AI驅動匹配;訓練數據與人才管理一體化;合作客戶含OpenAI等 AI驅動的人才匹配技術;與OpenAI頂級客戶的合作關系 Mercor 2023 Adarsh Hiremath(CTO)、Surya Midha(聯合創始人) 人力資源公司轉型 精細高端化 用 AI 面試篩選跨領域人才,承接 RLHF、SFT、eval 任務 AI驅動的人才匹配技術;高薪酬吸引頂尖專家; 與OpenAI、Anthropic等簽下長約 Surge AI 2020 Edwin Chen(CEO) 原生數據公司 精細高端化 高質量數據標注、RLHF支持、NLP與對抗訓練等 嚴格的質控流程、專家級標注團隊和現代化API接入能力 Datacurve 2024 Serena Ge(CEO)、Charley Lee(CTO) 原生數據公司 精細高端化 高質量數據標注 “賞金獵人”模式吸引熟練的軟件工程師、工程師優先理念、嚴格的質量控制措施
在梳理這些數據標注公司時,我們也發現,這些數據標注公司基本分為幾大類,一類是由人力資源公司轉型而來,例如mercor和Turing;一類是新型數據公司轉型而來。
Mercor最初是一家AI招聘公司,通過AI面試技術匹配技術人才,擁有一個高質量的專家人才庫。隨著AI數據標注需求的增長,Mercor依托其積累的醫生、律師等專家資源迅速轉向為AI實驗室提供數據標注服務。這一轉型使其從Scale AI的勞務供應商蛻變為直接競爭對手,特別是在RLHF和垂直領域標注任務方面,Mercor展現出了很強的競爭力。
Turing的轉型路徑與之類似。Turing最初專注于遠程工程師招聘,通過Talent Cloud模式建立人才庫。隨著市場需求演變,Turing逐步擴展至AI基礎設施服務領域,將業務范圍從人才匹配延伸至代碼數據標注、模型微調及企業AI轉型咨詢,實現了從單一人才服務向訓練數據與人才管理一體化平臺的轉型升級。
Datacurve面臨的競爭壓力并不小,最直接的是來自Surge AI,兩家都是走精細化高質量數據的路線。并且Datacurve的賞金模式看似新穎,但復制門檻卻并不高,真正決定平臺護城河的是它能否真的持續產出對模型性能有幫助的數據,能否在高質量與可擴展性之間找到平衡,能否維持社區內工程師的長期參與。
不過,Datacurve并未把未來押在工程師數據這一條路上,創始人Serena Ge已明確表示他們的平臺機制具備跨行業遷移的能力,未來可能拓展到金融、醫學、營銷等垂直專業領域。
![]()
![]()
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4802471.html?f=wyxwapp





京公網安備 11011402013531號