數據中臺已經走向沒落?
根據Gartner在2024年數據分析與人工智能技術成熟度曲線(中國版)中指出,“數據中臺”落入泡沫破裂低谷期,并且,Gartner還提出了“數據中臺即將消亡”的論斷。

提出這樣的論斷,在于經過了十多年的發展,數據中臺的弊端愈發明顯。從技術視角分析,數據中臺是物理集中式架構,側重于物理化的統一歸集和數據搬運,而隨著數據規模指數級增長,由于合規性、安全性等原因,數據中臺難以應對“跨源異構”數據的整合,且建設數據中臺,投資巨大,回報周期長,ROI成為眾多企不得不考慮的問題。從業務視角分析,這種架構高度依賴于ETL專業團隊及相關工具,不僅在時效性和靈活性上,難以為前端業務決策和產品創新提供支持,對一些自服務的數據消費場景,也難以提供敏捷的數據交付。
因此,從實際應用角度出發,對于正實施數字化轉型戰略的大型企業,或者想要更快、成本更低落地數字應用的中小型,甚至是初創企業來說,數據中臺在當下這樣的環境中,顯然已經不是更好的選擇。更靈活、更敏捷,也更低成本的數據編織架構開始受到關注。
什么是數據編織?
數據編織(Data Fabric)不是一個產品而是一種設計理念,是利用AI、機器學習和數據科學的功能,訪問數據或支持數據動態整合,以發現可用數據之間獨特的、與業務相關的關系。換句話說,現在的數據連接的架構設計還主要是“人找數據”,而數據編織的設計核心是“數據找人”,在合適的時間、將合適的數據推送給需要的人。
數據編織是一種全新的數據管理架構理念,其核心是通過優化跨源異構數據的發現與訪問,將可信數據以靈活且業務可理解的方式交付給所有相關數據消費者,讓數據消費者自助服務和高效協作,實現極致敏捷的數據交付。
與傳統數據中臺架構相比,數據編織的關鍵突破是通過數據虛擬化技術,創建邏輯數據層,在單點邏輯集成了分散在不同系統中的數據,為數據消費者提供了一個統一的、抽象的、封裝的邏輯數據視圖,無需物理搬運數據即可實現數據的統一訪問與管理。
“用戶通過這個邏輯視圖,可以查詢和操作存儲在異構數據源中的數據,把多個異構數據源當成一個同構數據源使用,無需關心數據的位置、類型和格式,最終實現類似數據中臺的統一集中化的數據訪問和管理。”Aloudata大應科技CMO劉靚告訴,“數據編織與數據中臺最大的差異在于:無需事前物理集中數據,事中運維 ETL 任務,事后計存治理(零搬運、免運維、自治理),為企業數據體系建設和數據管理架構提供了一種全新的思路。”
另一方面,國際市場也看好數據編織架構的發展。根據全球行業分析師報告,全球數據編織市場從2020年的11億美元,到2026年將達到37億美元,增長超過2倍。在此前,Gartner連續三年將數據編織(Data Fabric)列為“十大數據和分析技術趨勢”之一,更是在2024年的數據管理技術成熟度曲線里大幅提升數據編織的成熟度,預測該技術在未來2-5年內會獲得廣泛應用。
在Gartner看來,數據編織是一種跨平臺的數據整合的方式,它不僅可以集合所有業務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數據。
從應用上看,劉靚告訴,目前國際上對于數據編織架構的應用案例比較多,但是在國內市場,數據編織架構的應用仍處于發展的初期階段。
門檻更低,效率更高,哪些場景適合數據編織?
數據中臺在國內已經有了多年的發展歷史。數據中臺的概念最早由阿里巴巴在2014年前后提出并開始實施。阿里巴巴通過構建數據中臺,解決了內部多個業務線數據孤島的問題,實現了數據的統一管理和高效利用。此后,數據中臺的概念逐漸被廣泛認可和應用。
隨著數據中臺概念的普及,越來越多的企業認識到數據中臺的重要性,紛紛開始布局數據中臺建設。數據中臺的建設和應用,推動了企業的數字化轉型,也為企業帶來了新的商業機會和競爭優勢。
但在Gartner 2024《創新洞察:數據基礎設施成為中國數據與分析生態系統的基石》報告中提出,純技術驅動的 "大而全 "的數據與分析平臺(如數據中臺)無法確保切實的商業回報,從而失去了利益相關者的支持。
究其原因,雖然單就國內市場而言,數據中臺仍是大多數企業統一管理和交付數據,以數據驅動數字化轉型的重要選項,但其復雜的架構搭建,高昂的建設成本,以及持續的投入和較長的回報周期,讓企業開始思考和探尋新的數據架構。并且數據中臺架構的運作,高度依賴于專業的ETL工程師及相關工具,需要人工進行復雜且繁瑣的數據加工處理,然后交付數據給到前端消費者,而這不僅難以及時響應越來越快的業務需求,對于自服務的場景,也存在一定的門檻。除此外,企業在使用數據中臺的過程中,也會存在數據反復搬運的情況,而這種情況也導致了企業使用數據中臺的成本不斷上升。
對此,西卡中國 BI 和數據負責人袁鶯表示,數據中臺主要提供統一的服務,其數據存儲模式主要是物理集中式的,相比之下,數據編織更多地提供虛擬化的邏輯集成方案,能夠在云上、本地系統,以及多個存儲位置之間,構建統一的虛擬訪問層,不僅解決了數據遷移的問題,還有助于應對數據合規性的問題。
換言之,數據編織架構的出現,能夠讓企業以更低的成本,更快的速度,以及更好的合規性,實現全域數據的整合集成,及時響應業務需求,賦能產品創新和業務決策等。
首先,從技術與業務場景的匹配度來說。企業一方面在強調“讓技術服務于業務”,數據體系建設最簡單樸素的目標是“讓業務及時用上好數據”;另一方面,企業應用技術的現狀又是“技術落后于業務”的,尤其是企業業務變化越來越快,技術的響應卻跟不上業務變化的節奏。數據中臺“打固定靶”的開發模式顯然難以賦能業務靈活創新。在康明斯中國區首席架構師徐志蔚看來,數據編織最大的優勢在于,能夠推進自服務場景。“就數據而言,業務部門本身是最了解數據的,如果業務部門無法直接獲取所需數據進行分析,則可能導致數據處理過程中的誤解與偏差。”徐志蔚指出,“通過數據編織,企業可以將數據分析的能力給到業務,無需依賴 ETL 開發,即時獲取并充分利用數據價值。”
其次,從技術的組織就緒度來說。基于數據中臺的解決方案存在眾多的產品供應商和服務實施商,很容易讓人誤以為數據體系建設等同于數據中臺的一次性部署和不定期的數據代碼外包開發。而這種想法過于簡單了,簡化來看,數據開發和管理可以劃分為數據集成、數據加工和數據服務三大步驟,在這三個步驟中,企業不能單純的依靠供應商提供的項目管理服務,要想更好地應用數據中臺服務業務,企業需要組建一支自己的數據團隊,以便更好地推動企業內部的數據變革,而這點對于大多數企業而言,是一筆不小的開支。
最后,在這個各行業都在追求降本增效的當下,很多企業的CIO都曾向表示,企業在應用數字技術的時候,會將ROI放在比較靠前的位置考慮。而數據中臺的建設理念通常強調了數據的“應存盡存”,通過ETL將全域數據進行物理集中存儲,并采用面向數據建模的方法構建數據中間層和采用面向業務建模的方法構建數據應用層,層與層之間以及層的內部都有相應的數據搬運和拷貝,存在數據快速膨脹的現象。這意味著數據中臺建設成本不僅包括硬件相關的存算基礎設施,也包括一系列的數據開發與管理工具,還包括建模、開發、運維與管理的大量人力投入,前期TCO(Total Cost of Ownership,總擁有成本)至少百萬元。
隨著企業數智化的深入,數據源、數據類型、數據規模、數據需求在快速變化,數據鏈路和數據工程的復雜度在持續增加,任務運維和數據治理的工作量在指數級增長,數據體系的成本投入隨之也水漲船高,成為CIO無法繞開的難題。Aloudata CEO周衛林對此指出,數字化本身的目標是幫助企業降本增效,但是數據中臺架構的大規模初始投資和持續投資卻讓數據體系本身成為了成本中心。
所以,通過數據編織,可以有效地解決企業數字化轉型過程中的效率、成本、組織、合規等各個方面的問題。而對于擁有充足資金和人才儲備的大型企業而言,建設數據中臺當然可以一步到位,而且也可作為企業底層數字基礎,但數據編織能夠解決數據敏捷交付、跨域合規使用等問題,可以與數據中臺形成補充。袁鶯表示:“它們并非相互替代的關系,而是可以相互融合、互為補充。”對于投資謹慎和人才儲備不足的數字化初階企業而言,應用數據編織顯然能讓他們以更低的成本,更快的速度上線業務,同時也可以滿足他們業務隨時變化、調整的需求。
綜合來看,當企業選擇數據中臺或是數據編織架構的時候,企業要考慮自身是否具備充足的資金、充足的數據人才儲備,以及業務變化速率的快慢,再進行選擇。劉靚告訴,對于企業而言,有三個場景比較適合數據編織架構。首先,就是不想耗費過多的人力、財力去建設數據中臺,但又同時有著數字化轉型需求的企業,通常這些企業還擁有敏捷性的訴求。
其次,對于組織架構龐雜的大型企業,在開展多子公司數據湖倉跨域,甚至是跨境聯合數據查詢的過程中,數據編織能夠在確保安全的前提下,提供快速整合多湖倉數據的能力,而就Aloudata觀察來看,目前這部分訴求比較大的企業主要集中在金融機構、能源與制造業和汽車行業。
最后,對于部分統一建設了數據中臺的企業,能夠將數據編織作為數據中臺的補充,用于滿足業務自助敏捷用數的場景。
三個評估維度、兩個關鍵指標,用好數據編織
“相對于數據中臺,在國內,真正將數據編織這一架構理念付諸實踐的企業仍屬罕見。”劉靚認為,造成這一現象的原因在于眾多企業苦于缺乏清晰可參考的實踐方法論與價值評估框架。為此,國內Data Fabric架構理念的實踐者與引領者Aloudata日前正式發布了《數據編織價值評估指南》白皮書,提出了業界首個數據編織價值實現評估框架。
值得一提的是,這本白皮書的發布源自Aloudata多年的實踐。早些年,創始團隊親自操刀和參與了螞蟻集團的數據平臺的建設和管理,在洞察到數據中臺普遍存在的ROI、難以支持敏捷用數及自服務場景、過度依賴ETL等問題后,提出了“NoETL”的創新理念,并由此自研了數據虛擬化技術,打造了國內首個邏輯數據編織平臺Aloudata AIR,積極推進在各行業的落地應用。“與其他企業不同,我們不是因為先有了數據編織的概念,再去落地相關技術和產品,我們是從實踐中走來。事后看,我們的‘NoETL’理念與數據編織高度契合,也就自然成為數據編織架構理念的擁立者、實踐者和引領者。”Aloudata CEO周衛林如是說。
在白皮書中,Aloudata緊緊圍繞“讓業務及時用上好數據”這一點,提出了“提升數據交付效率”、“降低數據膨脹系數”、“減少數據管理成本”三個評估維度,并提供了“當天需求滿足率”和“當天數據動銷率”兩個關鍵指標,以幫助業務進行量化評估。
在提升數據交付效率方面,企業需要觀察,通過數據編織架構能否端到端地提升了從數據集成、整合到服務的交付效率,將數據需求的響應周期,從“周”縮短到“天”。
在降低數據膨脹系數方面,企業需要評估,能否從機制設計上系統化地減少數據拷貝,節約存算資源,提升存算的有效性和經濟性,“對于企業來說,使用好數據編織架構的話,至少能夠節約30%的存算成本。”劉靚指出。
在減少數據管理成本方面,企業需要評估,是否通過數據編織架構,簡化了系統技術概念,降低數據平臺的應用門檻,并減少了日常運維成本,提升數據管理的自動化水平和增強數據平臺的智能化能力,“在這方面,根據Aloudata觀察,應用好的企業,至少可以節省70%的數據管理成本。”劉靚說。
與此同時,通過“當天需求滿足率”和“當天數據動銷率”兩個關鍵指標,企業還能夠對數據編織架構的應用效果進行量化評估。
在Aloudata看來,當天需求滿足率是站在業務方視角評估和感受數據平臺能力和價值的唯一核心指標,也是數據產生業務價值的重要體現之一。“通過觀測業務數據化運營需求的當天滿足率可以比較好地衡量一家企業的數據交付效率。”劉靚如是說。
而數據動銷率則是對存算資源是否合理使用的量化指標—即當天有更新的數據在當天或未來段時間內(比如 30天內)的使用率(有沒有下游場景對數據產生訪問)。通常一個基于數據中臺理念構建的數據平臺,30天內的數據動銷率不會超過50%——即有大量的存算資源用于數據的更新,但卻沒有產生使用,而是被浪費了。如果計算數據的動銷熱度,比如一次數據更新帶來三次以上的數據使用,稱為熱銷,那么數據當日三次熱銷率會更低,通常低于10%,數據當月三次熱銷率通常低于30%。
劉靚表示,數智化程度越高的企業,比如偏互聯網性質的公司,這個比例會越低,因為業務變化快,有大量臨時性的、過期的數據更新沒有及時獲得清理。
通過三個維度,兩個指標,企業可以在使用數據編織架構的過程中,更好地掌握自身數字架構使用實現了真正的價值,從而更好地激發數據價值,賦能業務發展。
從應用上看,目前國內也已經有一些企業在數據編織應用方面產生了良好的“化學反應”,以首創證券為例,初始階段,首創證券在構建數據倉庫時,面臨了人員短缺與Hadoop技術棧不熟悉的挑戰。傳統Hadoop數倉體系需要龐大的ETL開發團隊和深厚的技術積累,這對于僅有少量數據工程師的首創證券來說,無疑是一大難題。
而數據編織為首創證券提供了解題思路,通過Aloudata AIR邏輯數據編織平臺,首創證券成功構建了一個邏輯數倉,將各業務系統的數據無縫連接。在ODS層實現邏輯連接后,DWD層則用于沉淀數倉的歷史數據。這種分層策略不僅簡化了數倉結構,還實現了數據的按需加速與物化,大大提高了數據處理的靈活性。
首創證券的源頭數據庫多達一百多個,涉及幾萬張表。在傳統方案下,僅集成這些數據就可能產生成千上萬的任務,耗時費力。部署完成后,通過Aloudata AIR,這些表在短短一天內就完成了集成。更值得一提的是,真正在明細層沉淀的物理表數量不到100張,大大降低了數據管理的復雜度。此外,報表的查詢響應率也顯著提升,一秒內響應率達到95%。這得益于DWD層的數據加速與沉淀策略,以及應用層查詢的自動路由機制,確保了查詢的高效執行。(作者|張申宇,編輯丨蓋虹達)





京公網安備 11011402013531號