

開篇語
繼國家數據局等17部門聯合印發“數據要素x”三年行動計劃(2024-2026年)之后,中央面向公共數據開發利用的首個頂層設計文件關于加快公共數據資源開發利用的意見公布,構建公共數據資源開發利用“1+3”政策規則體系。南都大數據研究院策劃推出“乘數而上”系列報道,繼關注公共數據授權運營以及廣東創新實踐之后,本期通過三篇深度調研報道,聚焦高質量中文語料數據產品供給等AI語料新生態,以期更好賦能AI產業創新發展。
如果將AI大模型視為疾馳的科技列車,語料數據就是珍貴“燃料”。語料數據從哪里來?如何提升語料質量?面對AI對知識、模態、標準化高質量中文語料數據需求,深圳、上海等地數據交易所聚焦語料數據產品供給,通過打造語料專區,上架語料數據產品與服務,在保證數據合規安全前提下,實現企業間的可信流通,滿足數據提供方與消費方的需求,為AI產業發展提供更可靠的數據流通支持,并助力數據驅動型企業數據資源向數據資產體系化轉化。
地AI發展政策明確加快語料供給
2022年11月30日,OpenAI推出的人工智能技術驅動的自然語言處理工具——ChatGPT在社交媒體走紅,引爆人工智能大模型興起。而在人工智能發展中,算法、算力、數據是三大關鍵要素,語料數據是決定大模型能力的重要環節,具有“賦能”“教化”的雙重功能。
南都大數據研究院梳理各地網信部門公開信息顯示,截至2024年11月全國已有252個生成式AI大模型通過備案、57個大模型完成登記。據行業媒體不完全統計,2023年至今國內已發布超過300個生成式AI大模型。隨著AI進入數據智能時代,質量與規模拉動算料數據需求快速成長,模型復雜度、算力提升拉動AI語料需求量劇增。
同濟大學經濟與管理學院教授陳強此前提出,當前語料資源供給水平較低,與大模型高強度訓練需求之間存在矛盾。語料涉及海量數據、文本、圖片、語音、視頻等資源,既有“原材料”也有“半成品”,要讓大模型“吃”得下去,需要靠數據庫技術解決“消化”問題。語料對于人工智能的“思維方式”“行為模式”具有潛移默化的影響,應促進高質量中文語料資源建設的提速擴容。
“高質量語料缺乏,日益成為限制大模型發展瓶頸”,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿道出當下大模型發展共性問題,解決中文語料不足與質量問題迫在眉睫。2024年以來全國地為搶占人工智能領域先機,陸續出臺大模型產業相關發展支持措施,強化高質量中文語料建設,加速大模型應用落地。
南都大數據研究院注意到,2023年5月31日發布的深圳市加快推動人工智能高質量發展高水平應用行動方案(2023-2024年)明確要求,建立模態公共數據集,打造高質量中文語料數據;2024年5月26日印發的廣東省關于人工智能賦能千行百業的若干措施提出“建設高質量中文數據集”,鼓勵企業建設面向行業的高質量中文語料數據庫,推動典型行業數據匯集、共享和使用,到2027年建設50個以上高質量行業數據集;7月25日發布的上海市促進工業服務業賦能產業升級行動方案(2024-2027年)要求“加快培育為制造業提供人工智能解決方案的供應商,開發故障分析、流程工藝等工業語料產品”,等等。值得一提的是,國家數據局等17個部門聯合印發的“數據要素×”三年行動計劃(2024—2026年)明確“提升數據供給水平”,打造高質量人工智能大模型訓練數據集。全國地也在組織開展高質量數據集征集,滿足模型訓練與優化數據需求,畢竟高質量的行業知識庫與訓練數據已經成為AI大模型賦能千行百業的制勝關鍵。
高質量語料數據 全流程場內交易
除了政策加持,深圳、上海、北京、杭州等地依托數據交易所建立語料數據交易板塊,聯合研究機構、數據型企業打造高質量、模態的語料數據產品掛牌上架,為國內大數據及人工智能行業提供安全、可靠的中文語料資源。
2023年7月7日,上海數據交易所正式上線語料庫,牽頭發起語料數據生態創新合作伙伴計劃,當時累計掛牌近30個語料數據產品。南都大數據研究院梳理發現,截至10月22日上數所語料專區已有252條產品信息,以語料數據集為主,共218個,占比高達86.5%,例如語源語種雙語對照平行語料、法源司法知識語料、飛天元宇宙3D語料庫以及應用語言學百科全書等。貴陽大數據交易所去年也面向全國征集擁有海量、優質條數據、文本、圖文、音視頻等數據企業,希望共建合規安全大模型數據語料庫專區,目前上架的語料數據集超300個,包括“聽書音頻語料庫”“數字圖書館語料庫”“社會主義核心價值觀語料集”“熱點信息問答語料”等。
深圳數據交易所官網也上架了“語言領域文本語料”“智譯——語種平行語料庫”等語料數據產品,廣州數據交易所上架“語義檢索算法模型服務”“安達數據全國紙媒文本語料庫數據集”等。深數所總經理古亮告訴南都記者,2023年ChatGPT 4.0版本發布以來,我國人工智能產業進入高速發展階段,截至2023年底全國人工智能核心產業規模接近6000億元,諸如盤古、智譜AI、文心一言等通用大模型與細分行業大模型商用化日益成熟。深數所創新推動人工智能數據專區、開放群島開源社區大模型SIG建設,率先實現首批國家備案大模型公司入場以及首批大模型產品上市并完成場內數據商品交易,加快推進國內外高質量語料數據匯集。
2024年9月份信通院、華為云、數鑫科技等聯合升級可信數據空間創新實驗室,在人工智能領域創新打造可信數據空間技術應用于大模型語料安全合規流通新路徑,實現全國首單語言語料數據場內實質閉環案例落地。在數鑫科技創始人兼CEO吳會才看來,普通技術手段很難確保語料提供方數據不會出現被轉存轉售、濫用,即缺乏必要技術合規保障手段來保障語料提供方數據權益。通過可信數據空間,大模型語料可以更高效流通,降低數據獲取成本與風險,為人工智能產業發展提供更可靠的數據流通支持,提高數據的質量和安全性。
推動數據資源向數據資產體系化轉化
對于語料類數據產品,數據交易所開始探索上市、入表、評估、授信全路徑。南都大數據研究院注意到,2024年9月9日深譯信息科技(珠海)有限公司(簡稱深譯科技)發布全國首個高價值、模態、語種AI算料數據資產包,估值超過2億元,主要應用于人工智能大模型研發訓練及調優,覆蓋57種語言以及醫療、法律、電商、文旅、金融、安全、科技等個領域。
“AI算料數據資產包主要有幾個特點:語言,包含個語種特別是葡語系、一帶一路小語種;模態,有文本、語音等個模態數據;高價值,數據量大質量高,具備很高應用場景價值、市場價值”,深譯科技創始人林余楚告訴南都記者,深譯科技創立之初就致力于成為以高質量數據為驅動的AI公司,立足高質量、高價值、稀缺性AI數據采集和標注,經年沉淀積累,算料數據集無論數量還是質量均屬國內第一梯隊。這些算料是以中文為核心的語言、模態、領域語料數據,提供AI算法模型開發所需的專業數據集。
10月22日,深數所攜手交通銀行深圳分行、廣東數聯數據要素有限公司、深圳市同致誠資產評估土地房地產估價顧問有限公司,共同完成為新譯信息科技(深圳)有限公司(簡稱新譯科技)提供“智譯——語種平行語料庫”數據產品合規、評估、上市、入表、質押、授信全流程服務,這是全國首筆以市場法進行數據資產評估的1000萬元貸款全額投放,也是全國首例以“市場法”為數據資產價值評估方法并成功入表實際放款的項目,為數據產品提供更有力的流通交易和金融支持。
上海市人工智能社會治理協同創新中心、上海交通大學清源研究院研究員劉志毅告訴南都記者,當前大模型競爭焦點正從算法創新轉向數據質量的競爭,高質量語料不僅僅是單純的數據集合,而且需要深度加工的數字產品。從技術視角來看,語料數據產品化仍面臨三大挑戰:首先是評價標準的確立,需要從覆蓋度、時效性、準確性等維度建立科學的質量評估體系;其次是定價機制創新,要考慮數據的稀缺性、使用場景和更新成本;最后是產品形態的設計,需要標準化接口和完整的技術服務支持。這些挑戰的破解,決定AI行業能否建立可持續數據要素市場。
知D
語料數據
指用于開發和訓練人工智能系統的海量數據資源,包括文本、語音、圖像、視頻等種形式,廣泛應用于自然語言處理、圖像識別、語音識別等領域。
語料數據可以從種來源獲取,包括網頁、百科、書籍、專利、教材、考題等。這些數據經過清洗和預處理后,可以用于模型的訓練和優化。例如,文本數據可以來自科技、文學、媒體、教育、法律等領域;圖像數據可以來自公開網頁,涵蓋新聞事件、人物、自然景觀等;視頻數據則可以來自新聞、影視等種類型的節目影像。
采寫:南都記者 袁炯賢 實習生 紀依
部分圖片由騰訊元寶AI生成





京公網安備 11011402013531號