數據正直接影響大模型的性能邊界,也是AI能否真正在企業(yè)側落地應用的關鍵。今年6月,meta以148億美元收購人工智能初創(chuàng)公司Scale AI 49%股權,讓數據標注與AI訓練服務賽道一躍成為大眾焦點。
在鈦媒體2025 ITValue Summit前瞻之AI落地指南系列直播中,鈦媒體集團聯合創(chuàng)始人、鈦媒體研究院院長萬寧與星塵數據創(chuàng)始人、CEO章磊,以及水木清華校友種子基金管理合伙人丁昳婷圍繞數據對于企業(yè)落地AI的重要性,以及企業(yè)如何更好地落地AI應用等話題展開了討論。
從對話中,章磊表示,AI演進路徑具有明確階段特征:從CV(計算機視覺)、NLP(自然語言處理)等簡單模型落地,到自動駕駛依賴大量感知型數據標注解決常識問題,再到認知型問題階段,當前已進入專家型知識學習、交互型知識學習及具身智能與環(huán)境數據交互的新階段。
而伴隨這一演進趨勢,數據價值顯著提升,“從單條幾毛、幾塊錢,升至幾十、幾百甚至幾千元,且需求‘無窮無盡’”。章磊進一步指出,“因AI依賴人類標注數據持續(xù)學習,未來幾十年內仍需人類提供數據,而AI將不斷突破數學、物理、DNA等領域的知識高峰,這正是星塵數據的核心價值所在。”
無獨有偶,丁昳婷也表示,AI發(fā)展過程中,“數據基座”至關重要,“無論CV、自動駕駛還是大模型階段,優(yōu)質數據獲取都是行業(yè)應用AI的前提。”丁昳婷強調道。
同時,丁昳婷與章磊均認為,AI技術并不是“護城河”,數據才是。數據“護城河”有兩種形式:一是擁有獨特,且能持續(xù)變現的數據;二是構建數據“越滾越大”的業(yè)務模式,“企業(yè)AI能力的本質是數據規(guī)模與質量的迭代,而非模型本身。”章磊如是說。
而當前企業(yè)級AI應用落地也面臨著很多挑戰(zhàn),這其中大模型的“幻覺”問題是當前AI應用面臨的災難性后果之一。特別是在醫(yī)療診斷、法律咨詢、金融分析等對準確性要求極高的場景,一次微小的幻覺都可能導致嚴重的經濟損失甚至生命危險。章磊強調,企業(yè)AI落地的“幻覺”問題(模型生成錯誤信息)根源并非技術或架構,而是數據質量(噪音、重復、矛盾等“臟數據”)。
針對此,章磊指出,解決幻覺問題并非單純依賴模型架構的優(yōu)化,更需要從源頭數據的純凈度、準確性以及覆蓋全面性上發(fā)力。通過構建高質量、低噪聲的數據集,并輔以嚴謹的數據校驗與清洗流程,我們才能有效“馴服”大模型,使其在復雜應用中保持嚴謹性和可信度。
章磊也給出了星塵數據針對大模型“幻覺”問題的解決之道——高質量訓練數據的編排,他介紹稱,星塵數據通過MorningStar平臺整理企業(yè)業(yè)務思維鏈,形成“教科書”式訓練數據,提升模型在特定場景的推理能力。
附上本期直播時間軸,幫你快速跳轉感興趣的部分
00:03:39 AI發(fā)展的幾個階段
00:10:04 資本如何看待AI公司的發(fā)展前景?
00:15:55 AI對于企業(yè)的意義和價值
00:24:18 企業(yè)在訓練模型的過程中,還有哪些問題?
00:34:25 資本對AI賽道和對企業(yè)有什么判斷?
以下為對話實錄,經筆者整理:
萬寧:星塵數據在數據標注領域進入的傳統業(yè)務有哪些?
章磊:星塵數據是國內最早一批專注于AI數據的創(chuàng)業(yè)公司,經歷了每一波AI創(chuàng)業(yè)浪潮和AI技術的顛覆,并且深入與每個時代處于“風口浪尖”的公司進行了合作,幫助他們創(chuàng)造了更大的價值。從最初NLP應用,到2018年前后的自動駕駛,我們?yōu)閹准臆嚻髲?到1解決了他們首款量產(自動駕駛)車輛的算法問題。在大模型問世之后,我們也與頭部的大模型公司進行深入的合作,共研創(chuàng)新技術,解決大模型發(fā)展中遇見包括幻覺、指令跟隨等在內的各種問題。
我們觀察到AI的演進路徑是:從最初的CV、NLP等一些簡單的模型算法的落地,到自動駕駛,需要通過大量感知型數據標注來解決常識性的問題,再到認知型的問題,再到現在,隨著大模型學習互聯網知識已經告一段落,就進入了專家型知識學習和交互型知識學習的階段,還有就是像具身智能等與環(huán)境進行數據交互的階段。
此外,數據也從低價值階段向著高價值轉變,原先一條數據可能幾塊錢、幾毛錢,但是現在一條數據可能幾十塊錢、幾百塊錢,甚至幾千塊錢。
在此基礎上,未來到底還需要多少數據呢?——這是目前大家經常問的問題。我認為答案是:無窮無盡。因為我們需要依賴一套底層技術——機器學習,學習的內容就是我們標注好的知識,或者一些交互型的知識,學習的過程是無窮無盡的。如果機器能夠達到自我學習了,那么人類的意義又在哪里?但這一天離我們還很遙遠,至少在未來的幾十年內,AI還需要不斷通過人類提供的數據進行學習和演進,同時學習的方式和內部機制也在不斷演進。接下來的幾年,我們仍然可以看到,AI會不斷攻破一個又一個人類認為不可企及的知識高峰。這里面包括了數學競賽的問題、前沿物理學,以及DNA基因等方面。這是我認為星塵數據存在最大的意義。
從數據標注行業(yè)角度出發(fā),我們也從由互聯網、科技公司領投的企業(yè),到自動駕駛、車廠領投的方向,再到接下來我們已經做了很多央國企,比如能源、交通、法律、金融保險等領域,現在各行業(yè)都有我們的應用案例。這是因為模型的門檻已經下降到各行各業(yè)都能夠應用的階段。在這個階段,星塵數據不僅提供數據標注,還提供了數據平臺、模型搭建的解決方案、顧問等服務,幫助各行業(yè)企業(yè)真正通過AI實現賦能。
萬寧:請介紹一下水木清華基金,以及從投資人角度出發(fā),如何看待諸如星塵數據這樣的AI創(chuàng)業(yè)企業(yè)的未來?
丁昳婷:水木清華校友種子基金主要專注于投資清華校友相關的初創(chuàng)企業(yè)。我們成立于2014年前后,陸續(xù)進行到了第五期基金。在AI方面,從之前的CV,逐漸到大模型相關的AI技術,清華校友圈從事AI行業(yè)的人很多。所以我們也比較早開始在AI方面的投資,從上一代AI開始,到大模型,再到具身智能等方向與相關產業(yè)都投了很多項目。比如星塵數據這樣的企業(yè),還有一些AI安全相關的企業(yè)。我們創(chuàng)立的初衷就是致力于成為清華校友創(chuàng)業(yè)第一站,給予校友在早期創(chuàng)業(yè)的科技項目提供一些幫助。
關于AI應用方面,我認為數據基座是非常關鍵的,近段時間也能感受到大家對數據的關注度很高,包括硅谷投資熱點也在向數據相關領域轉移。
從我們的觀點出發(fā),無論是之前的自動駕駛,還是模型數據,甚至是CV技術的階段,大量優(yōu)質數據的獲取一直都是各行業(yè)能夠應用AI技術的前提。我們認為星塵數據所做的事情,就是在AI的“掘金”時代“賣鏟子”,為AI提供了核心要素,提供了標注能力,以及對整個世界理解的能力。這點在國際上也是,比如一些與星塵數據類似的美國企業(yè),在美國也得到了資本界的認可,估值也很高,這也體現了資本市場對于這個環(huán)節(jié)價值的認可度。
基于此,我們認為,不管AI發(fā)展到了什么時代,數據一定是基礎,就像剛剛章總所說的,隨著AI向各行各業(yè)滲透,大家在希望更好地擁抱AI的過程中,數據這個環(huán)節(jié)的價值會越來越大,越來越受重視。
萬寧:回溯技術的演進,AI在企業(yè)的意義和價值是什么樣的?
章磊:我相信當下,絕大部分企業(yè)都會購買DeepSeek的一體機,但當部署了之后,DeepSeek是否真正解決了公司業(yè)務當中的問題?我相信很多公司的答案都是:沒有。
為什么?因為DeepSeek學的是互聯網知識,通用知識。但在企業(yè)內部業(yè)務環(huán)節(jié),每家企業(yè)的業(yè)務知識都不一樣,怎么樣能讓一個通用大模型去解決私有化業(yè)務場景中的問題呢?我認為,最好的辦法就是:通過企業(yè)私有化的數據,訓練出一個私有化的大模型和私有化的AI技術,這是現在大多數企業(yè)所面臨和忽略的一個問題。
同時,我認為一些簡單的推理問題、信息檢索的問題,可以通過RAG解決,但企業(yè)最核心的業(yè)務的問題,仍然需要私有化大模型去解決。而且,很多企業(yè)都存在信息墻——內部信息是不能通過外部通用大模型使用的,而這個時候,就更需要一個私有化的大模型。
在這個過程中,企業(yè)會面臨很多問題。首先是“幻覺”問題。幻覺問題不是技術問題,也不是架構問題,而是數據質量、數據分布、數據重復、數據矛盾等問題,有噪音,以及“臟”數據,都會導致幻覺問題。這個問題就需要通過高質量編排的訓練數據解決。
星塵數據通過MorningStar這樣一個以數據為中心的數據平臺解決這些問題。同時,還需要區(qū)分業(yè)務邏輯和知識之間的關系。很多時候問一個帶著業(yè)務邏輯的問題,不僅是一個通過知識+通用落地就能回答的問題,而是需要有業(yè)務邏輯關系來解決的。我們通過MorningStar平臺將客戶的業(yè)務思維鏈整理出來,讓其具備特定業(yè)務場景下的推理能力,再結合業(yè)務中的數據,梳理好一本精心編排的“教科書”,讓模型進行學習。
另一個挑戰(zhàn)是:正在被逐步解決的多模態(tài)的問題。如何將業(yè)務中Word、PPT這樣的文件,轉化為一條條的訓練數據,需要一個轉化過程,這個過程可能是半自動化的,也可能是全自動化的。當然,在這個過程中,我們也碰見過數據量不夠的問題。一些企業(yè)當中,真正了解業(yè)務的人往往是企業(yè)高管,這些高管的時間十分寶貴,可能一周都安排不出一小時與我們進行溝通建設思路之類的問題。所以,在這方面,我認為多模態(tài)業(yè)務數據,再加上核心業(yè)務人員的時間投入是必要的,這樣才能將一些類似于工業(yè)內部智能制造的數據,結合到企業(yè)真正業(yè)務過程中,真正落地好AI應用。
綜合來看,要解決企業(yè)內部問題,不僅需要一個錘子(工具),還需要企業(yè)有“能工巧匠”,同時還要有時間的投入和耐心,以及公司內部達成落地AI應用的共識和決心,才能真正解決AI落地的問題。
萬寧:除了業(yè)務人員時間投入不足之外,企業(yè)在訓練模型的過程中,還有哪些問題?
章磊:第一點,企業(yè)一定要有耐心。就好像人們對自己的子女有很大的耐心,能夠反復地傳授他們知識、培養(yǎng)能力,一點點地成長。AI的學習能力比人要強很多,但這個學習的過程也需要人們給予更多的耐心。
第二點,在應用AI方面要有決心,因為AI已經是一個不可逆的趨勢。我們發(fā)現很多企業(yè)的業(yè)務人員內心還存在僥幸,他們覺得,AI不好用,就不用了,公司就不推廣AI應用了。這是不可能的,公司肯定會推廣AI應用,只不過是快慢的問題。
第三點,管理層要制定好機制。讓中層、一線員工,有足夠的時間使用AI、迭代AI、磨合AI。同時還要推行良好的管理機制、競爭機制、分享機制,將資源分配到AI應用上,才能做好AI落地。
第四點,企業(yè)不要“單打獨斗”,要通過生態(tài)解決問題,而不要內部自己研究。像星塵數據這樣的,具備充足行業(yè)解決方案經驗的公司有很多,即便企業(yè)所處行業(yè)有一些獨特的問題,也能通過其他行業(yè)的一些經驗,加速企業(yè)在行業(yè)內落地AI應用的進程。
萬寧:在AI落地,以及智能體落地的過程中,星塵數據會給客戶怎樣的建議?
章磊:我覺得要在有耐心的前提下,做到“小步快跑”。一個項目需要從前期咨詢/溝通、數據策略、模型架構策略、設計,到小規(guī)模驗證,然后再到大量數據合成、標注,準備好數據,再到模型訓練、部署、應用、集成,最后再到數據迭代、模型迭代,是一個很長的鏈路。這個過程中,也會出現剛剛提到的幻覺、思維鏈不對等問題,這些問題就需要一點點去解決。沒有一個企業(yè)的業(yè)務問題是可以通過通用大模型一下就解決的。
舉個例子,比如法務行業(yè),客戶需要撰寫某一個專業(yè)領域的法務合同。這個過程中就會遇見很多問題,比如,無法通過RAG進行多份合同的沖突分析、證據鏈構建,法律原則適用度判斷,這些都無法通過信息檢索來解決。就需要通過先學習法律基礎知識,內化法律語義和推理,然后構建復雜的證據鏈,沉淀專家經驗,再將專家策略邏輯寫成代碼,轉化為可以訓練的內容,這些都需要一點點迭代完成。
再比如制造業(yè)。需要多模態(tài)的能力,而RAG很難通過圖像特征、工藝參數深度關聯,進行參數溯源,復雜因果推理,工藝優(yōu)化建議等能力,這時候模型就需要學習制造工藝材料學等一些知識,并在多模態(tài)數據上進行溯源歸因,將專家經驗沉淀下來,這個過程也是漫長的。
像RAG、Agent、Workflow都屬于工程類,是人類邏輯能夠快速理解的,我相信企業(yè)業(yè)務人員肯定會有比較聰明的人,能夠快速地掌握這些工具鏈去解決問題。但真正要解決數據的問題,才能在這些工具鏈上解決問題。我們認為,Agent、Workflow是一個短暫過渡的產物,當GPT5、GPT6出來之后,你會發(fā)現,其實不需要這些工具流,因為它是一個人的邏輯鏈,而真實的問題復雜度非常高。
就像自動駕駛,原先在L2的時候,車企為了趕交付周期,寫了上萬條規(guī)則,但后來特斯拉就使用端到端,將規(guī)則全部內化成深度的信息。我相信大模型也是一樣,通過Workflow會發(fā)現,補丁加了很多,規(guī)則加了很多,最后很難網簽執(zhí)行,因為它只能解決一個具體的小問題。但如果它是一個公司的業(yè)務大腦,最后公司的業(yè)務形態(tài)也會轉變,原來是以人為中心,計算機輔助,現在是以模型為中心,人不斷“喂養(yǎng)”這個模型,這樣模型才能越來越好用,真正解決企業(yè)的問題。
萬寧:作為投資人,在AI落地方面,對賽道和對企業(yè)有什么判斷?
丁昳婷:AI已經從原先的提升某個環(huán)節(jié)的效率,走向大家更期待AI能夠直接交付一個結果,或者說是深度理解業(yè)務流,然后幫助企業(yè)在某些業(yè)務中,交付更好的結果。
我們看到在很多行業(yè),或者說業(yè)務方向上,AI更容易落地。比如在AI營銷,或者客服(售前),通過學習大量數據,與顧客進行溝通,或者售后方面的一些預溝通。這些相對容易落地的方向,已經有越來越多的團隊涉足這些領域。
如果要更深入到整個企業(yè)的流程中,就需要與業(yè)務深度綁定。以制造業(yè)企業(yè)為例,制造業(yè)涉及了生產過程管理、產線管理,就需要AI理解一整套系統,需要有人理解整個業(yè)務流程是什么樣的,然后讓AI學會整個業(yè)務流程。然后再將AI的能力逐步深入滲透到業(yè)務的各個環(huán)節(jié)。
在這個過程中,也有很多困難需要解決。比如在多Agent協同減少人力成本的過程中,就可能面臨幾個問題。一個是標準化,可規(guī)模化復制的能力。比如一個龍頭客戶將某個場景下的AI能力迭代了一遍,這個能力能否具備向同行業(yè),甚至跨行業(yè)客戶遷移(復用)的能力。投資機構在評估的時候,也會考慮這些因素。
在我看來,當下是一個傳統行業(yè)+AI的機會,傳統行業(yè)本身具有了豐富的行業(yè)Know-How,能將AI的能力在應用過程中,進一步提升。而對于創(chuàng)業(yè)公司來說,他們可能缺乏行業(yè)深度業(yè)務流程的理解能力。
但從另一個維度上看,越來越多的創(chuàng)業(yè)公司將標準化的能力抽象出來,主要解決一個方面問題,就有可能在更多的行業(yè)(場景)中復用。這就需要整體生態(tài)的支撐,不同的團隊,側重不同的方面,比如有的團隊就通過大量行業(yè)專有數據,打造好垂類的行業(yè)大模型。
在某些行業(yè)AI對生產力的提升已經很明顯了。比如在編程領域,國內外有大量公司布局這個方面的業(yè)務,通過LLM語言模型,在編程方面能夠替代大量的人工。同時,AI編程也可以幫助一些原來不會編程的人,通過輕量化的方式,構建個人網站。現在已經有一些公司具備了這樣的能力,能夠幫助用戶快速地構建一個相對標準化的產品。
總結來看,無論在企業(yè)側,還是個人側,AI都在越來越多地替代我們身邊的角色,這個過程中,有很多多樣化的需求,有一些容易用AI實現的功能,已經有很多初創(chuàng)公司推出了“百花齊放”的產品。但從另一個角度來說,離真正的解決專業(yè)性極強的行業(yè)場景還有比較遠的距離。這就需要構建完善的生態(tài),通過行業(yè)專有數據,進行結合。
我們也看到了一些現象——現在很多大企業(yè)都非常迫切地尋找一個強力的AI團隊,他們認為有了這個團隊,就能解決公司的問題。在這個過程中也有一些難題。比如,雖然老板的決心很強,但在專業(yè)性方面,對流程并不是很理解的情況下,很難評估工作量、協同資源、計算投入。所以究竟什么樣的人員構成,以及什么樣的業(yè)態(tài)才能更好地幫助傳統行業(yè)進一步實現AI轉型,也是目前行業(yè)內在討論的一個熱議話題。
萬寧:在AI已經是必選項的背景下,很多企業(yè)希望通過多Agent協同來落地AI應用,但大多數企業(yè)的費效比并不是很好,您如何看待這個問題?
章磊:我覺得核心的問題是管理的方式還有待提高。我們內部管理層開會的時候,也說要倡導員工擁抱AI。其實我們自己也需要擁抱AI,因為不是每個星塵的員工都是算法工程師,都懂AI,我們也有大量業(yè)務人員。這種情況下,首先我們就有一些體系上、制度上、財務上的支持。比如,給員工報課,每周進行分享,然后在評級的時候,將使用AI算在評級內。招聘的時候,我們要求應聘者對AI有強烈的興趣。
第二點,要有機制。比如我們幫助客戶打造了業(yè)務問答助手,也會告訴客戶打造完不是終點,而是起點。因為這個助手現在將將夠用,但企業(yè)若想要將它打造成內部業(yè)務助理,就需要與員工進行大量的交互,并且企業(yè)需要專門安排一個員工實時監(jiān)測問答效果好不好,不好的數據需要剔除。比如星塵的MorningStar平臺就有這么一個功能:將不好的答案自動挖掘出來,自動收錄起來,生成新的數據,再進行訓練,形成一個迭代的思維。
在管理層上,需要管理者將員工擁抱AI的熱情慢慢調動起來;在數據層面、模型層面,需要不斷對模型進行迭代、優(yōu)化。
這個過程中,相對于ChatGPT這樣的幾百B參數的通用模型來說,企業(yè)需要的是真正能解決業(yè)務問題的小模型,可能20B、30B參數的模型就夠了。關鍵是要將企業(yè)內部數據存下來,整理清楚。所以,模型架構不是阻礙AI落地的關鍵,阻礙AI在業(yè)務上落地的主要瓶頸是數據、機制、企業(yè)文化和管理迭代的過程。
企業(yè)需要設計一個機制,讓數據能夠迭代起來,就像今年紅杉AI大會上,有的合伙人就說:我們投AI公司最大的邏輯是看這個公司有沒有數據護城河,因為AI技術本身沒有護城河,只有數據才有護城河。
所謂數據護城河,一種是,你的數據是不是別的企業(yè)沒有的數據?并且你還能持續(xù)地通過這些數據賺錢;另一種是,打造一種業(yè)務模式,可以讓數據在這種模式下,越滾越大。
對于企業(yè)而言,走到最后企業(yè)的核心競爭力就是:企業(yè)能不能通過AI提升業(yè)務能力,AI能力越滾越大的背后,不是模型越來越強,而是數據越滾越大。
萬寧:在行業(yè)Know-How等數據越來越重要的背景下,創(chuàng)業(yè)企業(yè)的機會還多嗎?
丁昳婷:這不是一個很好回答的問題,我結合自己的理解來解答一下。
首先,我很贊同章總的觀點——數據肯定是最重要的護城河,尤其是一些垂直行業(yè)落地應用的過程。而什么樣的數據才能形成一個高效的解決方案,對于整個團隊來說是一個非常大的挑戰(zhàn)。有些傳統行業(yè)企業(yè),雖然有豐富的數據,但對于AI沒有深度的理解,并不清楚AI的工作流是如何進行的,并且在數據結合模型的時候,通過什么樣的方式,能夠將這些行業(yè)Know-How更好地“喂”給AI。這些過程都具有很強的專業(yè)性。但從另一個維度上看,這個過程中本身還是依賴于數據。
這兩個方面缺一不可:一方面,企業(yè)需要擁有大量的原始的、高質量的數據,另一方面,企業(yè)需要知道如何將這些組織在一起。
很多時候,行業(yè)模型并不是垂直大模型,加一些行業(yè)數據的微調就能解決的。而是需要在模型架構上,進行針對性的設計,核心要求是:最適合業(yè)務場景的模型,這就需要很多Know-How。
所以,我認為初創(chuàng)企業(yè)與傳統企業(yè)的協同缺一不可。一方面,傳統企業(yè)有大量原始數據,但是僅憑這些原始數據也不足以支撐在AI落地方面走得更快;另一方面,初創(chuàng)企業(yè)對于如何利用好這些數據,有著更充分的理解,結合在一起才能走得更好。
包括在企業(yè)組織架構問題方面,我也覺得是一個非常關鍵的問題。因為人具有一定的多樣性,允許在業(yè)務中存在模糊空間,但AI需要有一個非常精準的定位。所以,原先一個人的工作,需要拆分成幾個不同的業(yè)務流,專門干某一項工作。然后再用比較高效的方式,將這些工作流組織起來。這就需要企業(yè)管理層對業(yè)務流程有著清晰的認知,并不是有一個AI應用,就能將原先的員工取代了。從這個維度上看,就需要企業(yè)創(chuàng)新組織形式,適應AI的能力。
我們也觀察到,有一些行業(yè),行業(yè)的組織方式在AI的影響下,正在發(fā)生變化。比如醫(yī)療行業(yè)。AI加入到醫(yī)療行業(yè)中,與原先的醫(yī)生、醫(yī)護是一個什么樣的協同方式,甚至是收費方式,可能都需要進行一些調整。從這個角度出發(fā),有一些業(yè)態(tài)需要改變,并不是基于原來的模式,能實現AI的原位替代。
從組織形式上講,我認為傳統行業(yè)的行業(yè)Know-How與對AI有深度理解的團隊人員都是必要的。只有這兩種員工組合在一起,才能在AI落地這件事上,走的比較快。
章磊:我補充一下。在硅谷有一家專門賣“專家”的公司發(fā)展得非常快。他們擁有醫(yī)療、法務、制造、工程等在內的多個行業(yè)的專家,然后同時還具備一個特點——這些專家又同時懂一些基礎算法知識。這些專家知道如何能將業(yè)務知識轉化為可訓練的數據,進而在企業(yè)內部打造AI能力。
基于此,我覺得,未來,無論是星塵,還是企業(yè)側,AI的發(fā)展需要“雙料冠軍”,這種人才既非常懂業(yè)務,又知道如何將行業(yè)Know-How轉化成AI能吸收的知識和數據。星塵數據也已經開始搭建專家人才網絡,其中不乏一些行業(yè)資深的專家。
因為我們看到,越來越多的客戶,核心業(yè)務人員十分忙碌,在這個過程中,我們如何能夠快速地通過我們自己的專家了解到企業(yè)業(yè)務方向,并且能快速地將這個方向翻譯成AI的訓練數據,就相當于我們給客戶搭建了一個專家團隊,快速地抽取出企業(yè)業(yè)務知識,轉化為搭建AI模型需要的。這個過程就能看到數據公司在其中的價值。
當然,光有懂算法的老師傅還不夠,企業(yè)還需要工具鏈,以及一套完整的工具流,推動AI應用落地。這也是我們搭建MorningStar平臺的原因,也是我們面向未來AI和AI數據機遇的一個布局。
萬寧:企業(yè)在落地AI應用過程中,最值得關注的問題有哪些?(面向企業(yè)CIO管理層)
章磊:第一個是,企業(yè)管理層真的準備好了么?真的搭建了一個AI First的企業(yè)文化了么?如果只是嘴上喊口號說“我們要用AI”,那永遠不會成功。AI First的企業(yè)文化意味著,企業(yè)的保障制度、激勵措施、資源分配,還有基礎設施等方面的準備都需要到位。
第二個是,企業(yè)是否愿意為了“AI信仰一躍”。這句話的意思是:之前在互聯網時代(或者說在AI之前的所有時代),人類的商業(yè)行為依賴于計劃、執(zhí)行,然后驗收。但在AI時代,企業(yè)不知道需要投入多少,但是得在基礎設施、人才、數據、訓練成本等方面進行投入,成本是不可忽視的一部分。企業(yè)的AI落地就像ChatGPT時代一樣,在看不見確定性成果的前提下,企業(yè)愿不愿意為了信仰而不斷前行。如果企業(yè)就抱著“我先花幾十萬試試”的態(tài)度,那是一種玩法;另外一種是——企業(yè)就抱著“背水一戰(zhàn)”的態(tài)度,一定要將AI落地,那又是一種玩法。
萬寧:丁總,如果您作為提問者,在面向數字化領導者(CIO)提問的時候,關于AI落地過程中,需要注意的方面,您會提出哪些問題?
丁昳婷:我可能更多的從對數據認知的角度進行提問。這其中有一個實際的挑戰(zhàn)是:像星塵數據這樣的涉及AI業(yè)務的公司,在出海的過程中,面臨著數據規(guī)范、數據安全的挑戰(zhàn)。
這就引出了一個實操的問題,比如一些大型互聯網公司出海的過程中,在當地的數據,用什么的方式能夠比較合理地被一家中國的互聯網公司納入到模型體系中,然后再為當地的客戶進行服務。越是像醫(yī)療、金融這種比較核心的層面的企業(yè)越會遇見類似的問題。
比如,企業(yè)將來希望具備全球化復制的能力,在國內已經將模型初步打磨好,在海外就需要注意如何能夠更好的完成模型、Know-How的跨境,需要注意的點,這是出海企業(yè)面臨的共性問題。
萬寧:對,AI倫理和合規(guī)的話題,已經不是選擇題,而是必答題。未來,所有企業(yè)都希望成為全球化的企業(yè),在這個層面,就需要企業(yè)在一開始底層業(yè)務邏輯上就需要考慮這個話題。而在這個方面做好相關戰(zhàn)略的規(guī)劃,已經是企業(yè)當下需要考慮的問題。
![]()
評!加入創(chuàng)新場景50榜單評選 2025年度「創(chuàng)新場景 TOP 50」榜單評選征集啟動 申報日期:即日起~8月22日止 公開投票及專家評審:2025年8月23日起~8月31日止 申報鏈接:https://m.tmtpost.com/post/cj50(請使用PC端申報,暫不支持手機端)





京公網安備 11011402013531號