數(shù)加大數(shù)據(jù)直播系列課程,主要以基于阿里云數(shù)加MaxCompute的企業(yè)大數(shù)據(jù)倉庫架構(gòu)建設(shè)思路為主題,分享阿里巴巴的大數(shù)據(jù)是怎么演變以及怎樣利用大數(shù)據(jù)技術(shù)構(gòu)建企業(yè)級大數(shù)據(jù)平臺。
本次分享嘉賓是來自阿里云大數(shù)據(jù)的技術(shù)專家祎休!
背景與總體思路
數(shù)據(jù)倉庫是一個面向主題的、集成的、非易失的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。其結(jié)構(gòu)圖如下所示:

隨著大數(shù)據(jù)、云計算等技術(shù)的應(yīng)用和普及,互聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)處理呈現(xiàn)出新的特征:業(yè)務(wù)變化快;數(shù)據(jù)來源多;系統(tǒng)耦合多;應(yīng)用深度深。業(yè)務(wù)變化加快導(dǎo)致數(shù)據(jù)來源增多,以前的數(shù)據(jù)大多來自于應(yīng)用系統(tǒng)數(shù)據(jù)庫,基本為結(jié)構(gòu)化數(shù)據(jù),比如Oracle、MySQL等數(shù)據(jù)。現(xiàn)在的互聯(lián)網(wǎng)環(huán)境下有了更多的數(shù)據(jù),比如網(wǎng)站的點擊日志、視頻數(shù)據(jù)、語音數(shù)據(jù),這些數(shù)據(jù)都需要通過統(tǒng)一的計算來反映企業(yè)的經(jīng)營狀況。在互聯(lián)網(wǎng)環(huán)境下,系統(tǒng)耦合也相對比較多,最重要的是要注重如何在這樣的環(huán)境下加深數(shù)據(jù)整合、提升應(yīng)用深度。從應(yīng)用深度上來說,之前更多專注于報表分析,在大數(shù)據(jù)環(huán)境下則更多地進(jìn)行算法分析,通過建立數(shù)據(jù)模型去預(yù)測和研判未來趨勢。所以在這種境況下,對于系統(tǒng)的需求也更高:
要求結(jié)果數(shù)據(jù)盡可能快的獲取;
實時性需求增多;
訪問、獲取途徑多樣便捷;
安全要求高。
在高需求下,傳統(tǒng)倉庫必然面臨著挑戰(zhàn):數(shù)據(jù)量增長過快導(dǎo)致運行效率下降;數(shù)據(jù)集成代價大;無法處理多樣性的數(shù)據(jù);數(shù)據(jù)挖掘等深度分析能力欠缺。基于這些特征,用戶該如何構(gòu)建大數(shù)據(jù)倉庫?在阿里云的數(shù)據(jù)倉庫構(gòu)建過程中,總結(jié)出了以下四個衡量標(biāo)準(zhǔn):
穩(wěn)定——數(shù)據(jù)產(chǎn)出穩(wěn)定并有保障,維護(hù)系統(tǒng)的穩(wěn)定性;
可信——數(shù)據(jù)干凈,數(shù)據(jù)質(zhì)量足夠高,帶來更高效的應(yīng)用服務(wù);
豐富——數(shù)據(jù)涵蓋的業(yè)務(wù)面足夠廣泛;
透明——數(shù)據(jù)的構(gòu)成體系要足夠透明,使得用戶放心。
一個完備的大數(shù)據(jù)倉庫應(yīng)該具備海量的數(shù)據(jù)存儲及處理能力、多樣的編程接口和計算框架、豐富的數(shù)據(jù)采集通道、多種安全防護(hù)措施及監(jiān)控等特征,所以在架構(gòu)構(gòu)建時需要遵循一定的設(shè)計準(zhǔn)則:
自上而下+自下而上地設(shè)計,數(shù)據(jù)驅(qū)動和應(yīng)用驅(qū)動整合;
在技術(shù)選型上注重高容錯性,保證系統(tǒng)穩(wěn)定;
數(shù)據(jù)質(zhì)量監(jiān)控貫穿整個數(shù)據(jù)處理流程;
不怕數(shù)據(jù)冗余,充分利用存儲交換易用,減少復(fù)雜度和計算量。
架構(gòu)及模型設(shè)計
一般來說,數(shù)據(jù)倉庫的構(gòu)建需要經(jīng)歷以上幾個過程。好的架構(gòu)設(shè)計,在功能架構(gòu)、數(shù)據(jù)架構(gòu)、技術(shù)架構(gòu)上,都能夠很好滿足需求:
功能架構(gòu)示例:結(jié)構(gòu)層次清晰
數(shù)據(jù)架構(gòu)示例:注重數(shù)據(jù)流向,數(shù)據(jù)質(zhì)量有保障
技術(shù)架構(gòu)示例:易擴(kuò)展、易用
構(gòu)建數(shù)倉的首要任務(wù)就是模型設(shè)計,業(yè)界一般采用的建模方法有兩種:
維度建模:結(jié)構(gòu)簡單;便于事實數(shù)據(jù)分析;適合業(yè)務(wù)分析報表和BI。
實體建模:結(jié)構(gòu)復(fù)雜;便于主題數(shù)據(jù)打通;適合復(fù)雜數(shù)據(jù)內(nèi)容的深度挖掘。
用戶可以根據(jù)實際情況進(jìn)行區(qū)分,而在實際數(shù)據(jù)倉庫中,星型模型和雪花模型是并存的,有利于數(shù)據(jù)應(yīng)用和減少計算資源消耗。
在數(shù)據(jù)處理分層上,一般采用較多的是上下三層結(jié)構(gòu):
這樣設(shè)計是為了壓縮整體數(shù)據(jù)處理流程的長度,扁平化的數(shù)據(jù)處理流程有助于數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)運維;把流式處理作為數(shù)據(jù)體系的一部分,能夠更加關(guān)注數(shù)據(jù)的時效性,使得數(shù)據(jù)價值更高。
基礎(chǔ)數(shù)據(jù)層
數(shù)據(jù)中間層
圍繞實體打通行為,能將數(shù)據(jù)源進(jìn)行整合;從行為抽象關(guān)系,則是未來上層應(yīng)用一個很重要的數(shù)據(jù)依賴。此外,冗余是個好手段,能夠保證主題的完整性,提高數(shù)據(jù)易用性。
數(shù)據(jù)集市層
需求場景驅(qū)動的集市層建設(shè),各集市之間是垂直構(gòu)建的,需要能夠快速試錯,深度挖掘數(shù)據(jù)價值。
基于阿里云數(shù)加搭建大數(shù)據(jù)倉庫
基于阿里云數(shù)加搭建大數(shù)據(jù)倉庫的整個業(yè)務(wù)流程如下所示:
阿里云的數(shù)加架構(gòu)主要分為數(shù)據(jù)整合、數(shù)據(jù)體系、數(shù)據(jù)應(yīng)用三個層次,如下圖:
結(jié)構(gòu)化數(shù)據(jù)采集通常涉及到全量采集和增量采集。全量采集是整個數(shù)倉的數(shù)據(jù)初始化,將歷史數(shù)據(jù)快速地同步到計算平臺;增量采集是初始化之后的數(shù)據(jù)同步。但在數(shù)據(jù)量巨大、增量數(shù)據(jù)同步資源消耗嚴(yán)重,或者后續(xù)的數(shù)據(jù)應(yīng)用需要用到準(zhǔn)實時數(shù)據(jù)的情況下,還會采用實時采集的方法,這種方法對采集端系統(tǒng)有一定的要求,而且采集質(zhì)量最難控制。
事實上,日志原始結(jié)構(gòu)越規(guī)范,解析的成本越低。在日志采集到平臺之前,建議盡量不做結(jié)構(gòu)化,后續(xù)再通過UDF或MR計算框架實現(xiàn)日志結(jié)構(gòu)化。
數(shù)據(jù)倉庫與阿里云數(shù)加產(chǎn)品的對應(yīng)關(guān)系
離線數(shù)倉:MaxCompute數(shù)據(jù)共享的安全性
數(shù)倉的安全性是最為重要的話題。基于MaxCompute的多租戶數(shù)據(jù)授權(quán)模型,是安全性非常之高的數(shù)據(jù)共享機(jī)制,在數(shù)據(jù)流、訪問限制等方面能夠有效防治。
架構(gòu)設(shè)計中的一些最佳實踐
數(shù)據(jù)表命名規(guī)范
分區(qū)表、工作流設(shè)計
計算框架應(yīng)用、優(yōu)化關(guān)鍵路徑
實際開發(fā)中的一些友好案例
用大數(shù)據(jù)治理大數(shù)據(jù)
數(shù)據(jù)治理分為保障機(jī)制、管理、內(nèi)容建設(shè)幾個方面,并且貫穿數(shù)據(jù)開發(fā)的整個過程:
為了有效衡量數(shù)據(jù)治理的效果,阿里云使用的數(shù)據(jù)管理健康評估體系能夠正確認(rèn)識數(shù)據(jù)管理的健康性,給出數(shù)據(jù)管理健康分。
在數(shù)據(jù)治理過程中,比較重要的一點是重復(fù)數(shù)據(jù)治理。重復(fù)數(shù)據(jù)治理有多種表現(xiàn):
相同源頭:重復(fù)拖取同一張表;
計算相似:讀取表相同且處理特征相似;
簡單加工:簡單轉(zhuǎn)換、裁剪后保存至新表;
同表同分區(qū):數(shù)據(jù)保持不更新或業(yè)務(wù)已停止;
空跑表:運算結(jié)果數(shù)據(jù)持續(xù)為空;
命名相似:表名或字段名相似度較高;
特殊規(guī)則:通過已知業(yè)務(wù)規(guī)則識別。
數(shù)據(jù)質(zhì)量管理體系
數(shù)據(jù)生命周期管理
總結(jié):阿里大數(shù)據(jù)實踐之路





京公網(wǎng)安備 11011402013531號