資料倉儲主題

2022-04-24 14:09:02 字數 2067 閱讀 9954

3.4.2 理解資料倉儲中的主題

通過資訊包圖實際上確定了資料倉儲的主題和大部分元資料。這一節先講資料報圖和主題的關係。

1.主題的概念

主題(subject)是在較高層次上將企業資訊系統中的資料進行綜合、歸類和分析利用的乙個抽象概念,每乙個主題基本對應乙個巨集觀的分析領域。在邏輯意義上,它是對應企業中某一巨集觀分析領域所涉及的分析物件。例如在前面資訊包圖使用的例子中,「銷售分析」就是乙個分析領域,因此這個資料倉儲應用的主題就是「銷售分析」。

面向主題的資料組織方式,就是在較高層次上對分析物件資料的乙個完整並且一致的描述,能刻畫各個分析物件所涉及的企業各項資料,以及資料之間的聯絡。所謂較高層次是相對面向應用的資料組織方式而言的,是指按照主題進行資料組織的方式具有更高的資料抽象級別。與傳統資料庫面向應用進行資料組織的特點相對應,資料倉儲中的資料是面向主題進行組織的。

例如,乙個生產企業的資料倉儲所組織的主題可能有產品訂貨分析和貨物發運分析等。而按應用來組織則可能為財務子系統、銷售子系統、**子系統、人力資源子系統和生產排程子系統。

主題是根據分析的要求來確定的。這與按照資料處理或應用的要求來組織資料是不同的。如在生產企業中,同樣是材料**,在操作型資料庫系統中,人們所關心的是怎樣更方便和更快捷地進行材料**的業務處理;而在進行分析處理時,人們就應該關心材料的不同採購渠道和材料**是否及時,以及材料質量狀況等。

資料倉儲面向在資料模型中已經定義好的公司的主要主題領域。典型的主題領域包括顧客、產品、訂單和財務或是其他某項事務或活動。

2.主題域的獲取

主題域是對某個主題進行分析後確定的主題的邊界。分析主題域,確定要裝載到資料倉儲的主題是資訊打包技術的第一步。而在進行資料倉儲設計時,一般是一次先建立乙個主題或企業全部主題中的一部分,因此在大多數資料倉儲的設計過程中都有乙個主題域的選擇過程。

主題域的確定必須由終端使用者和資料倉儲的設計人員共同完成。

比如,對於adventure works cycle這種型別的公司管理層需要分析的主題一般包括**商主題、商品主題、客戶主題和倉庫主題。其中商品主題的內容包括記錄超市商品的採購情況、商品的銷售情況和商品的儲存情況;客戶主題包括的內容可能有客戶購買商品的情況;倉庫主題包括倉庫中商品的儲存情況和倉庫的管理情況等,如圖3-31所示。

錯誤!圖3-31 根據業務情況確定的分析主題

確定主題邊界實際上需要進一步理解業務關係,因此在確定整個分析主題後,還需要對這些主題進行初步的細化才便於獲取每乙個主題應該具有的邊界。對於圖3-31的4個主題及其在企業中的業務關係可以確定邊界如圖3-32所示。

錯誤!圖3-32 主題域的劃分

3.確定主題的內容

主題雖然在資訊包圖中只佔據標題的位置,但是卻是資訊打包方法中最重要的部分,當主題定義好之後,資料倉儲中的邏輯模型也就基本成形了。此時,需要在主題的邏輯關係模式中包含所有的屬性及與系統相關的行為。資料倉儲中的資料儲存結構也需要在邏輯模型的設計階段完成定義,需要向裡面增加所需要的資訊和能充分代表主題的屬性組。

以adventure works cycle這類公司資料倉儲為例,如表3-7所示可以分別在「商品」、「銷售」和「客戶」主題上增加能夠進一步說明主題的屬性組。

表3-7 主題的詳細描述

4.主題的使用

由於資料倉儲的設計是乙個螺旋發展的過程,在剛開始,沒有必要在資料倉儲的資料庫中體現所有的主題,選擇最重要的主題作為資料倉儲設計的試金石是很有必要的。因此使用主題首先是找到需要分析的主題域。

例如在adventureworksdw資料倉儲的概念模型設計中,在對需求進行分析後,認識到「商品」主題既是乙個銷售型企業最基本的業務物件,又是進行決策分析的最主要領域,因而把「銷售分析」主題域定義為要首先建立的主題。通過「商品」主題的建立,經營者就可以對整個企業的經營狀況有較全面的了解。先實施「商品」主題可以盡快地滿足企業管理人員建立資料倉儲的最初要求,所以先選定「商品」主題進行實施。

通過將主題邊界的劃分應用到已經得到的關係模型上還能形成原始的概念模型。這一模型是把主題域的劃分和事務處理資料庫中的表結合起來的模型,例如在上面的例子中,商品主題可能涵蓋的關係表有商品表、**關係表、購買關係表和倉儲關係表;倉庫主題可能涵蓋的關係表有倉庫關係表、倉庫表、倉庫管理關係表和管理員表。把這些表的鍵和字段聯絡起來,就可以形成如圖3-33所示的原始概念模型圖。

圖3-33 劃分了主題域的原始概念模型

資料倉儲與資料探勘

頻繁專案集.給定全域性專案集i和資料庫d,d中所有滿足使用者指定的最小支援度 minsupport 的專案集,即大於或等於minsupport的i的非空子集,稱為頻繁專案集 frequent itemsets 或者大專案集 large itemsets 在頻繁專案集中挑選出所有不被其他元素包含的頻繁...

資料倉儲和資料探勘

編號 data warehouse data mining 一 課內學時 32 學分 2 二 適用專業 計算機軟體與理論 計算機應用等。三 預修課程 資料庫 四 教學目的 通過資料倉儲和資料探勘的有關基礎知識介紹,使學生對其含義 作用及發展有所了解,為進一步做有關的研究打下基礎。五 大綱內容 第一章...

資料倉儲元資料管理

餘友波資料倉儲之路原創資料 第一章元資料概論 企業的計算機系統每年會產生很多資料,很多企業面臨著這樣的困境,難以有 效的管理大量的 繁雜的 不一致的資料,並方便地訪問 利用這些資料進行輔助 決策。建立資料倉儲提供乙個方法,把資料轉化為有用的 可信賴的資訊,支援商業 決策。建立資料倉儲乙個重要的工作是...