阿里資料整合及資料管理體系解讀

2023-02-09 01:51:02 字數 4038 閱讀 5948

前段時間給大家推薦了《大資料之路--阿里巴巴大資料實踐》,這本書確實內容非常詳實,全是乾貨,值得反覆品味。剛剛看完第9章,講的是資料整合及管理體系,覺得非常好,設計得非常精妙,只看看覺得還不能深刻理解,遂做個讀書筆記按照自己理解重構整理一遍,同時補充上自己的解讀分享給大家,推薦給準備搭建資料產品或者資料平台的人。

傳統企業的業務變化相對不快,但使用一般的**文件來管理資料過程也已經越來越困難,更何況網際網路這樣迅速變化的業務,做好資料整理及管理的難度可想而知,但阿里的資料團隊還是形成了完成的方法體系,並把其工具化。也只有完備方法體系下構建的工具能滿足複雜的資料管理需求。

阿里大資料建設方**的核心就是,從業務架構設計到模型設計,從資料研發到資料服務,做到資料可管理、可追溯、可規避重複建設。目標是建設統一的、規範的資料接入層(ods)和資料中間層(dwd 和 dws),通過資料服務和資料產品,完成服務於阿里巴巴的大資料系統建設。所以資料管理體系是包含具體的方**以及相關的產品兩個部分,通過產品把方**固化為標準的流程和操作,達到資料管理的目的。

資料管理體系包括了業務板塊劃分、資料域提煉、業務過程梳理、原子指標/度量定義、派生指標定義及管理,維度分析整理以及資料模型的設計。通過下面的體系架構圖來看看資料體系建設的過程、以及每一步做什麼和如何做。另外,如何定義每個術語的涵義,準確定義術語非常關鍵,有時候描述不清楚複雜的流程、場景最根本是因為對其中的一些概念沒有非常很好的釐清。

業務板塊: 根據業務的屬性劃分出相對獨立的業務板塊,業務板塊間指標和業務重疊性較低,比如電商板塊涵蓋**、天貓、天貓國際、b2b系,金融板塊涵蓋支付寶、花唄、螞蟻微貸等。業務板塊非常巨集觀,可以想象成賈不死的7大生態。

規範定義:結合行業的資料倉儲建設經驗和阿里資料自身的特點,設計出的一套過程方法和資料規範命名體系,規範定義將用於模型設計中。規範定義指以維度建模作為理論基礎,構建匯流排矩陣,劃分和定義資料域、業務過程、原子指標/度量、修飾型別、修飾詞、時間週期、派生指標規則,下圖是它們之間的關係,以及具體例項。

規範定義例項

模型設計:以建模理論為基礎,基於維度建模匯流排架構,構建一致性的維度和事實,同時設計出一套表命名規範系統。維度建模理論很多書上都講過,這裡就不單獨整理了。

我們重點說說資料域、業務過程、修飾詞、原子指標、派生指標。

資料域:是面向業務分析的,將業務過程或者維度進行抽象組合的集合。其中業務過程是乙個個不可拆分的行為事件,在業務過程之下定義指標;維度是指度量的環境,如買家下單事件,買家是維度,訂單數量是度量。

資料域是抽象提煉出來的,並且不輕易變動,既能涵蓋當前所有業務的業務需要,又能在新業務進入時無影響的分配到已有的資料域中,如果所有分類都不合適才會擴充套件新的資料域。資料域不同於產品的功能模組和業務線,是從分析的角度來組織資料指標、維度,功能模組是面向使用者功能和管理功能的分類。從下面的兩個**能很清楚的看出不同,功能模組和業務線是隨時擴充套件的。

那麼劃分資料域有什麼作用呢?主要是因為經過抽象後資料域相對功能模組和業務過程來說少很多,是有效歸納、組織業務過程的方式、同時方便定位指標/度量。

業務過程:指企業的業務活動事件,如下單、支付、退款都是業務過程,這裡要注意,業務過程是乙個不可拆分的行為事件。

修飾詞:指除了統計維度以外的對指標進行限定抽象的業務場景詞語,修飾詞隸屬於乙個修飾型別,如在日誌域的訪問終端型別下,有修飾詞pc端、無線端,有點像屬性名和具體屬性值的意思。修飾型別是為了方便管理、使用修飾詞。

原子指標:和度量含義相同,基於某一業務時間行為下的度量,不可拆分的指標,具有明確業務含義的名詞,如支付金額。原子指標有確定的欄位名稱(中英文)、資料型別、演算法說明、所屬的資料域和業務過程。

原子指標名稱 = 動作 + 度量, 例如支付金額、註冊使用者數 。除了這些標準度量值的原子指標,還有些是為了派生指標而建的原子指標,後面講派生規則時會說到,例如排名型的 top_***_*** 。

24、目前,我國的航天技術在世界上占有相當重要的位置。「長征四號」運載火箭的順利發射,載人飛船「神舟」五號和「神舟」六號和「神舟」七号也已經發射成功,「嫦娥」一號探月衛星又發射成功。派生指標:

= 乙個原子指標 + 多個修飾詞 + 時間週期 。可以理解為對原子指標業務統計範圍的圈定,說總支付金額是個籠統的高度概括的彙總指標,其業務範圍時間並不明確。 加上修飾詞後的派生指標如:

最近 1 天北京買家支付金額(最近1天是時間週期、北京是修飾詞、買家作為維度)。派生指標的英文名 = 原子指標英文名 + 時間週期修飾詞 + 序號(_002);中文名由時間週期修飾詞 + 【其它修飾詞】+ 原子指標 。

5、鐵生鏽變成了鐵鏽,這是一種化學變化。水分和氧氣是使鐵生鏽的原因。下圖是常用的時間週期修飾詞,整理的非常詳細

5、在咀嚼公尺飯過程中,公尺飯出現了甜味,說明了什麼?

最後說說派生指標的型別和不同型別指標的生成規則,這裡的規則不容易理解,需要結合例子花些時間慢慢體會為什麼有的是在原子指標的基礎上派生,有的必須新建原子指標然後再派生。其實規則很簡單就是沒有可用的原子指標或者不是簡單增加限定條件的指標,需要先建立原子指標,例如排名型,top10並不能作為乙個原子指標,其並無實際含義,但 」top_n 搜尋關鍵詞「有明確的業務涵義就可作為原子指標,然後再擴充套件」最近60天天貓top_10搜尋關鍵詞「 。

5、鐵生鏽變成了鐵鏽,這是一種化學變化。水分和氧氣是使鐵生鏽的原因。派生指標:

分為事務型指標、存量型指標和複合型指標。事務型指標是指對業務活動進行衡量的指標,一般會對應乙個事件。例如新發商品數、新增註冊會員數、訂單支付金額, 訂單支付金額對應訂單支付事件,這類指標在原子指標上派生。

存量型指標是指對實體物件(商品、會員)某些狀態的統計,例如商品總數、註冊會員總數,這類指標需維護原子指標及修飾詞,在此基礎上建立派生指標,對應的時間週期一般為「歷史截至當前某時間」。複合型指標是組合事務型指標和存量型指標而成的,例如瀏覽uv-下單買家數轉換率,有些建立新原子指標,有些在事務型或者存量型指標基礎上增加派修飾詞派生。這裡說的建立新原子指標,書上並沒有講地很清楚,理解起來也非常繞,我理解是無法從已有的原子指標派生時,比如計算方式不同,就需要新建原子指標,然後再派生,也不是直接做成原子指標,因為原子指標是無法使用限定詞的。

二、問答題:複合型指標按照指標的計算方法又可以分為:比率型、比例型、變化量型、變化率型、統計型、排名型、物件集合型, 有了詳細的型別,再來考量如何派生就更容易了,而不是沒有規律的沒有方法的組合。

第一單元微小世界比率型: 建立原子指標,然後在派生復合指標,先建立crt,然後再有:最近一天店鋪首頁ctr,原子指標為ctr(點選率),時間週期為「最近1天」,修飾型別為「頁面型別」,修飾詞為「店鋪首頁」。

比例型:包含百分比、佔比的都是比例型,比例型要先建立原子指標,再派生。例如 」最近 1 天無線支付金額佔比「,有原子指標 」支付金額「,但沒有原子指標 」支付金額佔比「 ,支付金額佔比和支付金額的演算法不同,沒法從支付金額擴充套件,需要新建立。

假如說可以擴充套件,那麼在」支付金額佔比「上做二次擴充套件,就更複雜。

2、2023年7月,美國的「阿波羅11號」載人飛船成功地在月球上著陸。變化量型:不建立原子指標,增加修飾詞,在此基礎上建立派生指標,因為派生沒有改變指標的計算規則,只是增加了限定條件。

例如:」最近 1 天訂單支付金額上一天變化量「,原子指標為」訂單金額「,時間週期為」最近 1 天「, 修飾型別為」統計方法「,修飾詞為」上 1 天變化量「。

6、重新使用是指多次或用另一種方法來使用已用過的物品,它也是減少垃圾的重要方法。變化率型:建立原子指標,同比率型和比例型。例如,」最近7天海外買家支付金額上7天變化率「 。

統計型:不建立原子指標,一般可統計的指標都是數量型,所以和變化量型一樣,加修飾詞派生即可,例如: 」最近6月月均訂單支付金額「 。

常用的」統計方法「類修飾詞:人均、日均、商品平均、月均、90分位數、眾數等。

排名型:建立原子指標, 一般為top_***_*** , 不同的排名業務涵義不同,需要建立不同的原子指標。建立派生指標時可選擇的修飾詞有:

統計方法(降序、公升序),排名名次(如 top10),排名範圍(如行業、省份、一級**等),根據什麼排序(如搜尋次數、pv)

物件集合型:主要是指資料產品和應用需要展現資料時,將一些物件以k-v對的方式儲存在乙個欄位中,方便前端展現。比如趨勢圖、top排名物件。

二、問答:

物件集合型派生指標

為了指標體系不失控,新建原子指標和派生指標需要有專人進行審核,審核通過後才能上線使用,避免重複、定義不合標準、難於理解等問題。良好的指標定義和體系也是後續指標計算、資料包表、資料分析產品化的基礎。

阿里資料整合及資料管理體系解讀

5 7 第 1頁 共 7頁 前段時間給大家推薦了 大資料之路 阿里巴巴大資料實踐 這本書確實內容非常詳實,全是乾貨,值得反覆品味。剛剛看完第9章,講的是資料整合及管理體系,覺得非常好,設計得非常精妙,只看看覺得還不能深刻理解,前段時間給大家推薦了 大資料之路 阿里巴巴大資料實踐 這本書確實內容非常詳...

資料管理體系規劃與建設

business operation 業務與運 3 資料增值服務階段。進入到資料增值服務階段,企業內所有資料都將都過etl的方式匯集到統一資料服務平台,經過成熟的分析模型對資料進行深入分析,向第三方或企業內部員工提供增值服務,並運用到企業運營 管理與決策過程中,為企業經營決策和精細化營銷提供支撐,使...

excel實驗3資料圖表化 資料管理及頁面設定

資料圖表化 資料管理以及頁面設定 實驗目的 1 掌握嵌入圖表和獨立圖表的建立 2 掌握圖表的整體編輯和對圖表各物件的編輯 3 掌握資料列表的排序 分類彙總和篩選 4 了解資料庫功能 以自己的姓名建立工作薄,並在其中完成如下六個題目。資料表可以複製得到,不用自己輸入 實驗內容一 在sheet1中建立如...