12月13日,由北京市通州區人民政府主辦,通州區經濟和信息化局、通州區臺湖鎮人民政府承辦的2024-ADD數據應用場景大會成功舉辦。標貝科技作為AI數據領域代表企業,受邀出席大會,與數據要素創業者、投資人一起走進通州臺湖,共話數據要素產業發展新機遇。

大會以“論壇+比賽”為核心架構,搭建一個集思想交流、技術展示、項目合作于一體的綜合性平臺,引入產業需求方及投資機構,與創新項目一起推動數據應用技術的突破,開拓數據應用的市場空間。吸引了眾多優秀數據應用創新項目、科技企業、研究院所以及投資機構齊聚會議現場。
會上,標貝科技聯合創始人&CTO李秀林博士與其他企業代表圍繞“ALL IN AI的新時代,如何實現數據價值”話題進行了深入探討。

隨著大模型技術的發展,語音大模型、視頻大模型等各類生成式AI基礎設施和技術的迅猛發展,數據需求也隨之井噴式增長。一方面,在技術層面無監督數據被廣泛采納,借助無監督/自監督技術來設計并優化模型算法。另一方面,生成式AI的應用場景日益豐富,每個場景都需要特定類的數據來支持模型的訓練和調優。對高質量數據的需求,成為解決大模型在實際應用中面臨諸多挑戰的關鍵所在。
李秀林博士表示,市場需求的增加,對數據的要求在多個方面都發生了顯著的變化。一是數據規模的變化,比傳統的數據規模上升了多個數量級。比如,原來合成數據只需要幾小時或者幾十小時,現在則需要數十萬數百萬小時的數據規模。二是對數據的加工處理,尤其是自動處理能力提出了更高的要求。因為大規模的數據通過人工來處理,還是非常費時費力的,難以滿足效率的要求。三是對特定領域的專業能力、標注人才,比如醫學、奧數等數據的標注,普通標注員難以保證準確率行,需要專業的標注人才。四是對數據解決方案的需求增加。就此,標貝科技也結合自身的技術實踐,不斷推出數據解決方案來為客戶提供服務。
深耕AI數據服務領域多年,標貝科技緊跟AI技術發展帶來的變革趨勢,積極調整策略,以應對大模型數據需求市場的快速崛起。
依托自研的一站式智能標注工具AI數據平臺以及嚴格的數據標準管理流程,標貝科技構建了一套完備的大模型數據處理解決方案。方案覆蓋從數據采集、標注、管理、模型訓練與優化、部署與應用一站式服務全流程數據服務,可以支持圖像、點云、語音、文本、大模型、多模態等多種數據類型,滿足不同場景下數據的處理和分析需求,為AI大模型的訓練和優化提供堅實的保障。
此外,標貝科技還積累了高精度、多樣化、專業化的數據集。數據集包括語音識別、語音合成、圖像、文本、多模態等領域,內容豐富,適配性強,覆蓋智慧金融、智慧醫療、自動駕駛、虛擬數字人等行業,可用于大模型在預訓練、指令微調、對齊、評估等不同階段的訓練數據需求,提升模型性能。
近期,國家數據局引發了《可信數據空間發展行動計劃(2024—2028年)》。提出到2028年建成100個以上可信數據空間,基本建成廣泛互聯、資源集聚、生態繁榮、價值共創、治理有序的可信數據空間網絡,各領域數據開發開放和流通使用水平顯著提升,初步形成與我國經濟社會發展水平相適應的數據生態體系。
置身于產業變革的浪潮之巔,標貝科技將積極響應培育數據要素市場的政策號召,進一步加強技術創新,不斷精進自身數據產品的核心競爭力,為客戶提供高質量、安全、多樣性數據服務體驗。同時與業界伙伴攜手探索數據要素的全新價值空間,充分利用高質量數據的強大潛力,推動AI技術在更多元化場景中的創新應用,為AI產業的繁榮發展注入新的活力。





京公網安備 11011402013531號