資料倉儲構建實施方法及步驟

2022-07-20 09:45:03 字數 4916 閱讀 5150

資料倉儲是面向主題的、整合的、不可更新的、隨時間的變化而不斷變化的,這些特點決定了資料倉儲的系統設計不能採用同開發傳統的oltp資料庫一樣的設計方法。

資料倉儲系統的原始需求不明確,且不斷變化與增加,開發者最初不能確切了解到使用者的明確而詳細的需求,使用者所能提供的無非是需求的大的方向以及部分需求,更不能較準確地預見到以後的需求。因此,採用原型法來進行資料倉儲的開發是比較合適的,因為原型法的思想是從構建系統的簡單的基本框架著手,不斷豐富與完善整個系統。但是,資料倉儲的設計開發又不同於一般意義上的原型法,資料倉儲的設計是資料驅動的。

這是因為資料倉儲是在現存資料庫系統基礎上進行開發,它著眼於有效地抽取、綜合、整合和挖掘已有資料庫的資料資源,服務於企業高層領導管理決策分析的需要。但需要說明的是,資料倉儲系統開發是乙個經過不斷迴圈、反饋而使系統不斷增長與完善的過程,這也是原型法區別於系統生命週期法的主要特點。因此,在資料倉儲的開發的整個過程中,自始至終要求決策人員和開發者的共同參與和密切協作,要求保持靈活的頭腦,不做或盡量少做無效工作或重複工作。

資料倉儲的設計大體上可以分為以下幾個步驟:

概念模型設計;

技術準備工作;

邏輯模型設計;

物理模型設計;

資料倉儲生成;

資料倉儲執行與維護。

下面我們六個主要設計步驟為主線,介紹在各個設計步驟中設計的基本內容。

第一節概念模型設計

進行概念模型設計所要完成的工作是:

<1>界定系統邊界

<2>確定主要的主題域及其內容

概念模型設計的成果是,在原有的資料庫的基礎上建立了乙個較為穩固的概念模型。因為資料倉儲是對原有資料庫系統中的資料進行整合和重組而形成的資料集合,所以資料倉儲的概念模型設計,首先要對原有資料庫系統加以分析理解,看在原有的資料庫系統中「有什麼」、「怎樣組織的」和「如何分布的」等,然後再來考慮應當如何建立資料倉儲系統的概念模型。一方面,通過原有的資料庫的設計文件以及在資料字典中的資料庫關係模式,可以對企業現有的資料庫中的內容有乙個完整而清晰的認識;另一方面,資料倉儲的概念模型是面向企業全域性建立的,它為整合來自各個面向應用的資料庫的資料提供了統一的概念檢視。

概念模型的設計是在較高的抽象層次上的設計,因此建立概念模型時不用考慮具體技術條件的限制。

1 界定系統的邊界

資料倉儲是面向決策分析的資料庫,我們無法在資料倉儲設計的最初就得到詳細而明確的需求,但是一些基本的方向性的需求還是擺在了設計人員的面前:

·要做的決策型別有哪些?

·決策者感興趣的是什麼問題?

·這些問題需要什麼樣的資訊?

·要得到這些資訊需要包含原有資料庫系統的哪些部分的資料?

這樣,我們可以劃定乙個當前的大致的系統邊界,集中精力進行最需要的部分的開發。因而,從某種意義上講,界定系統邊界的工作也可以看作是資料倉儲系統設計的需求分析,因為它將決策者的資料分析的需求用系統邊界的定義形式反映出來。

2 確定主要的主題域

在這一步中,要確定系統所包含的主題域,然後對每個主題域的內容進行較明確的描述,描述的內容包括:

· 主題域的公共碼鍵;

· 主題域之間的聯絡;

· 充分代表主題的屬性組。

例如:結合公司的業務,主題可以大致分為以下幾類,這裡是大概舉個例子,具體的主題劃分是和業務部門不斷溝通的產物。

第二節技術準備工作

這一階段的工作包括:技術評估,技術環境準備。

這一階段的成果是:技術評估報告、軟硬體配置方案、系統(軟、硬體)總體設計方案。管理資料倉儲的技術要求與管理操作型環境中的資料與處理的技術要求區別很大,兩者所考慮的方面也不同。

我們之所以在一般情況下總是將分析型資料與操作型資料分離開來,將分析型資料單獨集中存放,也就是用資料倉儲來存放,技術要求上的差異是乙個重要原因。

1技術評估

進行技術評估,就是確定資料倉儲的各項效能指標。一般情況下,需要在這一步裡確定的效能指標包括:

·管理大資料量資料的能力;

·進行靈活資料訪問的能力;

·根據資料模型重組資料的能力;

·透明的資料傳送和接收能力;

·週期性成批裝載資料的能力;

·可設定完成時間的作業管理能力。

2 技術環境準備

一旦資料倉儲的體系化結構的模型大體建好後,下一步的工作就是確定我們應該怎樣來裝配這個體系化結構模型,主要是確定對軟硬體配置的要求;我們主要考慮相關的問題:

·預期在資料倉儲上分析處理的資料量有多大?

·如何減少或減輕競爭性訪問程式的衝突?

·資料倉儲的資料量有多大?

·進出資料倉儲的資料通訊量有多大?等等。

根據這些考慮,我們就可以確定各項軟硬體的配備要求,並且在這一步工作結束時各項技術準備工作應已就緒,可以裝載資料了。這些配備有:

·直接訪問裝置(dasd);

·網路;

·管理直接訪問裝置(dasd)的作業系統;

·進出資料倉儲的介面(主要是資料查詢和分析工具);

管理資料倉儲的軟體,目前即選用資料庫管理系統及有關的選件,購買的dbms產品不能滿足管理資料倉儲需要的,還應考慮自己或軟體整合商開發有關模組等等。

第三節邏輯模型設計

在這一步裡進行的工作主要有:

分析主題域,確定當前要裝載的主題;

確定粒度層次劃分;

確定資料分割策略;

關係模式定義;

記錄系統定義

邏輯模型設計的成果是,對每個當前要裝載的主題的邏輯實現進行定義,並將相關內容記錄在資料倉儲的元資料中,包括:

·適當的粒度劃分;

·合理的資料分割策略;

·適當的表劃分;

·定義合適的資料**等。

1 分析主題域

在概念模型設計中,我們確定了幾個基本的主題域,但是,資料倉儲的設計方法是乙個逐步求精的過程,在進行設計時,一般是一次乙個主題或一次若干個主題地逐步完成的。所以,我們必須對概念模型設計步驟中確定的幾個基本主題域進行分析,並選擇首先要實施的主題域。選擇第乙個主題域所要考慮的是它要足夠大,以便使得該主題域能建設成為乙個可應用的系統;它還要足夠小,以便於開發和較快地實施。

如果所選擇的主題域很大並且很複雜,我們甚至可以針對它的乙個有意義的子集來進行開發。在每一次的反饋過程中,都要進行主題域的分析。

2 粒度層次劃分

資料倉儲邏輯設計中要解決的乙個重要問題是決定資料倉儲的粒度劃分層次,粒度層次劃分適當與否直接影響到資料倉儲中的資料量和所適合的查詢型別。確定資料倉儲的粒度劃分,可以使用在粒度劃分一節中介紹的方法,通過估算資料行數和所需的dasd數,來確定是採用單一粒度還是多重粒度,以及粒度劃分的層次。

3 確定資料分割策略

在這一步裡,要選擇適當的資料分割的標準,一般要考慮以下幾方面因素:資料量(而非記錄行數)、資料分析處理的實際情況、簡單易行以及粒度劃分策略等。資料量的大小是決定是否進行資料分割和如何分割的主要因素;資料分析處理的要求是選擇資料分割標準的乙個主要依據,因為資料分割是跟資料分析處理的物件緊密聯絡的;我們還要考慮到所選擇的資料分割標準應是自然的、易於實施的:

同時也要考慮資料分割的標準與粒度劃分層次是適應的。

4 關係模式定義

資料倉儲的每個主題都是由多個表來實現的,這些表之間依靠主題的公共碼鍵聯絡在一起,形成乙個完整的主題。在概念模型設計時,我們就確定了資料倉儲的基本主題,並對每個主題的公共碼鍵、基本內容等做了描述在這一步裡,我們將要對選定的當前實施的主題進行模式劃分,形成多個表,並確定各個表的關係模式。

第四節物理模型設計

這一步所做的工作是確定資料的儲存結構,確定索引策略,確定資料存放位置,確定儲存分配。

確定資料倉儲實現的物理模型,要求設計人員必須做到以下幾方面:

要全面了解所選用的資料庫管理系統,特別是儲存結構和訪問方法。

了解資料環境、資料的使用頻度、使用方式、資料規模以及響應時間要求等,這些是對時間和空間效率進行平衡和優化的重要依據。

了解外部儲存裝置的特性,如分塊原則,塊大小的規定,裝置的i/o特性等。

1 確定資料的儲存結構

乙個資料庫管理系統往往都提供多種儲存結構供設計人員選用,不同的儲存結構有不同的實現方式,各有各的適用範圍和優缺點,設計人員在選擇合適的儲存結構時應該權衡三個方面的主要因素:訪問時間、儲存空間利用率和維護代價。

2 確定索引策略

資料倉儲的資料量很大,因而需要對資料的訪問路徑進行仔細的設計和選擇。由於資料倉儲的資料都是不常更新的,因而可以設計多種多樣的索引結構來提高資料訪問效率。

在資料倉儲中,設計人員可以考慮對各個資料儲存建立專用的、複雜的索引,以獲得最高的訪問效率,因為在資料倉儲中的資料是不常更新的,也就是說每個資料儲存是穩定的,因而雖然建立專用的、複雜的索引有一定的代價,但一旦建立就幾乎不需維護索引的代價。

3 確定資料存放位置

我們說過,同乙個主題的資料並不要求存放在相同的介質上。在物理設計時,我們常常要按資料的重要程度、使用頻率以及對響應時間的要求進行分類,並將不同類的資料分別儲存在不同的儲存裝置中。重要程度高、經常訪問並對響應時間要求高的資料就存放在高速儲存裝置上,如硬碟;訪問頻率低或對訪問響應時間要求低的資料則可以放在低速儲存裝置上,如磁碟或磁帶。

資料存放位置的確定還要考慮到其它一些方法,如:決定是否進行合併表;是否對一些經常性的應用建立資料序列;對常用的、不常修改的表或屬性是否冗餘儲存。如果採用了這些技術,就要記入元資料。

4 確定儲存分配

許多資料庫管理系統提供了一些儲存分配的引數供設計者進行物理優化處理,如:塊的尺寸、緩衝區的大小和個數等等,它們都要在物理設計時確定。這同建立資料庫系統時的考慮是一樣的。

第五節資料倉儲的生成

在這一步裡所要做的工作是介面程式設計,資料裝入。

這一步工作的成果是,資料已經裝入到資料倉儲中,可以在其上建立資料倉儲的應用,即dss應用。

1 設計介面

將操作型環境下的資料裝載進入資料倉儲環境,需要在兩個不同環境的記錄系統之間建立乙個介面。乍一看,建立和設計這個介面,似乎只要編制乙個抽取程式就可以了,事實上,在這一階段的工作中,的確對資料進行了抽取,但抽取並不是全部的工作,這一介面還應具有以下的功能:

·從面向應用和操作的環境生成完整的資料;

·資料的基於時間的轉換;

·資料的凝聚;

·對現有記錄系統的有效掃瞄,以便以後進行追加。

資料倉儲構建實施工作計畫

鄭疆 2008.12.14 資料倉儲是面向主題的 整合的 不可更新的 隨時間的變化而不斷變化的,這些特點決定了資料倉儲的系統設計不能採用同開發傳統的oltp資料庫一樣的設計方法。資料倉儲系統的原始需求不明確,且不斷變化與增加,最初很難確切了解到使用者的明確而詳細的需求,更不能較準確地預見到以後的需求...

資料倉儲主題

3.4.2 理解資料倉儲中的主題 通過資訊包圖實際上確定了資料倉儲的主題和大部分元資料。這一節先講資料報圖和主題的關係。1 主題的概念 主題 subject 是在較高層次上將企業資訊系統中的資料進行綜合 歸類和分析利用的乙個抽象概念,每乙個主題基本對應乙個巨集觀的分析領域。在邏輯意義上,它是對應企業...

BI資料倉儲實現方法介紹

目前我們在安踏專案上,為安踏提供了 業務系統,查詢系統以及bi報表三大塊,這三大塊的示意圖如下 從上圖我們可以看到這個體系由如下部分構成 生產系統也就是目前我們為安踏提供的分銷系統,裡面既有分銷資料又有全國各地專賣店上傳得零售資料。資料倉儲資料倉儲裡面的資料由生產系統定期匯入,資料倉儲可以從多種業務...