資料倉儲元資料管理

2021-08-03 17:47:20 字數 4437 閱讀 5850

餘友波資料倉儲之路原創資料

第一章元資料概論

企業的計算機系統每年會產生很多資料,很多企業面臨著這樣的困境,難以有

效的管理大量的、繁雜的、不一致的資料,並方便地訪問、利用這些資料進行輔助

決策。建立資料倉儲提供乙個方法,把資料轉化為有用的、可信賴的資訊,支援商業

決策。建立資料倉儲乙個重要的工作是元資料管理。元資料(metadata)就是資料

的資料,用於建立、管理、維護和使用資料倉儲。。元資料管理是企業級資料倉儲

中的關鍵元件,貫穿於建立資料倉儲的整個過程。

元資料使得使用者可以掌握資料的歷史情況,如資料從**來?流通時間有多長?更新頻率是多大?

資料元素的含義是什麼?對它已經進行了哪些計算、轉換和篩選等等。在需求不確定情況下,在瞬間萬變的商業環境下,元資料可以更好的支援需求的變化,降低專案風險。

通常把元資料分為技術元資料(technical metadata)和業務元資料(business metadata)。技術元資料是描述關於資料倉儲技術細節的資料,這些元資料應用於開發、管理和維護資料倉儲;業務元資料從商業和業務的角度描述資料倉儲的資料,提供了良好的語義層定義,業務元資料使業務人員能夠更好的理解資料倉儲分析出來的資料。

元資料貫徹於建立資料倉儲的整個過程,不只是etl過程需要元資料的支援。

圖1 元資料的應用

在使用元資料的同時,隨著資料倉儲市場的發展,業界出現許多資料倉儲管理

和分析的工具,各種工具使用不同的元資料標準來表示和處理,不同系統之間的遷

移、資料交換變得困難。於是,我們希望用一種單一的元資料標準,使得各種組織

的元資料具有單一的元模型(metamodel),因此,需要建立一種標準使得不同的

資料倉儲和商業智慧型系統之間可以相互交換元資料。

1.1.2 第二章元資料標準

1.1.

2.1一、元資料標準cwm

omg於2023年頒布元資料標準cwm 1.0(common warehouse metamodel version 1.0)。

cwm定義乙個描述資料來源、資料目的、轉換、分析的元資料框架,以及定義建立和管理資料倉儲的過程和操作,提供使用資訊的繼承。

目前宣布支援cwm的廠商包括:ibm、oracle、hyperion、dimension edi、genesis iona、hp、ncr和unisys等。

cwm基於3個工業標準:

uml - unified modeling language,omg建模標準;

mof - meta object facility,omg建立元模型和模型庫的標準,提供在異構環境下的資料交換的介面;

xmi - xml metadata interchange,omg元資料交換標準。

uml在cwm中得到充分的應用,擔任3個不同的角色:

1),uml用來做為與mof對應的meta-metamodel。uml相當於mof model,,uml notation和ocl(object constraint language),被用來做為建模語言、圖形符號、約束語言,定義和描述cwm。

2),uml用來建立元模型。uml,特別是object model 包描述的子集,用來從其它元模型繼承等級和關聯以建立cwm。

3),uml做為物件導向元模型(object-oriented metamodel)。uml被用來描述物件導向的資料。

cwm元模型包括大量的子元模型(sub-metamodel),這些子元模型描述了建立資料倉儲和商業智慧型的各個主要部分的通用資料倉儲元資料。

主要包括:

1)、資料資源:包括各個元模型,描述了物件導向資料、關聯式資料庫、記錄、多維和xml等資料。

2)、資料分析:包括描述資料轉換、olap、資料探勘、資訊展現、商業術語等的元模型。

3)、資料倉儲管理:這包括資料倉儲過程以及資料倉儲操作結果的元模型。

圖2 cwm元模型架構圖

cwm元模型設計的目的是最大化的重用物件模型object model (uml的子集) ,盡可能的共享通用的模型構建。最典型的是,cwm重用/依賴物件模型來描述物件導向的資料資源;另外,其它型別的資料資源的主要metamodel元素,在物件模型中都有相同的模型元素與之相對應。

1.1.

2.2二、使用cwm

1、cwm的目標使用者

cwm標準包括了技術元資料和業務元資料的定義,涉及資料倉儲生命週期的所有階段,所以不只是實施工程師和實施顧問使用cwm,終端使用者也會受益於cwm。

cwm的目標使用者包括6類人員:

1,資料倉儲平台和工具**商;

2,專業服務諮詢商;

3,資料倉儲開發者;

4,資料倉儲管理員;

5,終端使用者;

6,資訊科技主管(cio)。

2、基於cwm的資料倉儲

cwm的目標使用者將會參與到開發和使用基於cwm的資料倉儲的過程中;但並不是所有的角色需要參與整個過程,而是參與到下面列舉的的4個階段中的乙個或多個:

1)、establishment。實現和配置cwm,包括建立乙個通用資料庫。

2)、build。使用cwm定義乙個基線資料倉儲配置(建立資料來源和目的的交換路徑)。

3)、operation。操作和使用基於cwm的資料倉儲。

4)、maintenance。維護使用了cwm定義的資料倉儲的配置。

1.1.

2.3三、cwm標準組織結構

cwm元模型使用包(package)和包等級結構來控制複雜性、提高理解性、支援重用。模型元素包括下面的包:

1,物件模型包

物件模型包是構建和描述其它cwm包的元模型類的基礎。

核心包。包括cwm核心物件模型的類和關聯,被其它cwm包使用。

行為包。包括用來描述cwm物件的行為的類和關聯。

關係包。包括用來描述各個cwm物件之間關係的類和關聯。

例項包。包括用來描述cwm例項的類和關聯。

2、基礎包

基礎包是表示cwm概念和架構的模型元素。

商業資訊包。包括用來描述關於模型元素的商業資訊的類和關聯。

資料型別包。包括用來描述建立模型需要的特定資料型別構建的類和關聯。

表示式包。包括用來描述表達樹(expression trees)的類和關聯。

關鍵字和索引包。包括用來描述主鍵和索引的類和關聯。

軟體部署包。包括用來描述軟體在資料倉儲中如何部署和配置的類和關聯。

型別對映包。包括用來描述兩個系統之間資料型別對映關係的類和關聯。

3、資源包

資源包是用來描述資料資源和記錄的資訊。

關係包。包括用來描述關係型資料的元資料的類和關聯。

記錄包。包括用來描述記錄型資料的元資料的類和關聯。

多維包。包括用來描述多維型資料的元資料的類和關聯。

xml包。包括用來描述xml資料的元資料的類和關聯。

4、分析包

分析包定義了如何對資訊進行加工和處理,以及資訊展示。

轉換包。包括用來描述資料轉換工具的元資料的類和關聯。

olap包。包括用來描述olap工具的元資料的類和關聯。

data mining包。包括用來描述資料探勘工具的元資料的類和關聯。

資訊展示包。包括用來描述資訊展示工具的元資料的類和關聯。

商業術語包。包括用來描述商業分類學和術語表的元資料的類和關聯。

5、管理包

管理包用於資料倉儲管理和維護。

倉庫過程包。包括用來描述資料倉儲過程的元資料的類和關聯。

倉庫操作。包括用來描述資料倉儲操作和查詢結果的元資料的類和關聯。

1.1.3 第三章建立元資料庫

元資料庫是用於儲存元資料的地方,元資料庫最好選用主流的關聯式資料庫管理系統,支援cwm標準。乙個元資料庫還包含那些用於操作和查詢元資料的機制;建立元資料庫的主要好處是提供了統一的關鍵資料結構和業務規則,易於將企業內部的多個資料集市有機的結合起來;特別是,現在一些客戶傾向建立多個資料集市,而不是乙個龐大無比的資料倉儲。

可以考慮在建立資料倉儲(或資料集市)之前,先建立乙個用於描述資料的、用於應用整合的元資料庫,做好資料倉儲實施的初期支援工作,對後續開發和維護有很大的幫助。

在擁有不同廠商、不同功能和不同元資料庫的環境下,要實現兩種產品之間的元資料同步是非常富有挑戰性的工作。因為必須從一種產品中獲得足夠詳細的元資料,將其對映到另一種產品中,再指出兩者意義或編碼的差別;通常系統有數百、數千個元資料,必須對每個元資料重複這一過程。

在整個資料倉儲環境中,元資料管理工具可以從各個資料倉儲元件中收集元資料,儲存到元資料庫中,然後向業務使用者傳遞和展示正確的資訊。採集、整合和描述元資料可以擴充套件到十分廣泛的範圍,可以在設計和建模的過程中,可以在資料轉換、清洗和過濾的過程中,也可以在資料移植的過程中;可以從資料庫/資料儲存軟體,和前端展示工具中得到元資料。

元資料庫為整個企業的寶貴資訊提供了詳細的記錄,儲存資料儲存位置和商業含義、生成和維護資料的主體、資料驅動的應用處理、與其它資料的關係以及資料的轉換過程等。元資料庫保證了資料倉儲資料的一致性和準確性,為企業進行資料

質量管理提供資料依據。

另外,元資料庫還支援強大的查詢和報表生成工具,使用者使用報表工具可以查詢元資料庫,從元資料庫獲得重要的決策支援資訊。

資料倉儲與資料探勘

頻繁專案集.給定全域性專案集i和資料庫d,d中所有滿足使用者指定的最小支援度 minsupport 的專案集,即大於或等於minsupport的i的非空子集,稱為頻繁專案集 frequent itemsets 或者大專案集 large itemsets 在頻繁專案集中挑選出所有不被其他元素包含的頻繁...

資料倉儲和資料探勘

編號 data warehouse data mining 一 課內學時 32 學分 2 二 適用專業 計算機軟體與理論 計算機應用等。三 預修課程 資料庫 四 教學目的 通過資料倉儲和資料探勘的有關基礎知識介紹,使學生對其含義 作用及發展有所了解,為進一步做有關的研究打下基礎。五 大綱內容 第一章...

資料倉儲主題

3.4.2 理解資料倉儲中的主題 通過資訊包圖實際上確定了資料倉儲的主題和大部分元資料。這一節先講資料報圖和主題的關係。1 主題的概念 主題 subject 是在較高層次上將企業資訊系統中的資料進行綜合 歸類和分析利用的乙個抽象概念,每乙個主題基本對應乙個巨集觀的分析領域。在邏輯意義上,它是對應企業...