資料倉儲技術與應用

2022-11-01 00:48:05 字數 4878 閱讀 1840

作者簡介 :項軍 (19792 , 男 , 四川綿陽人 , 空軍工程大學飛彈學院計算機工程系碩士研究生 , 研究方向 :智慧型資訊處理與人工智慧 ; 雷英傑 (19562 , 男 , 陝西渭南人 , 教授 , 博士生導師 , 研究方向 :

智慧型資訊處理 , 模式識別 , 人工智慧 。 資料倉儲技術與應用

項軍 , 雷英傑

(空軍工程大學飛彈學院 , 陝西三原   713800

摘要 :對資料倉儲 、 聯機分析處理和資料探勘等幾個概念做了詳細的介紹 , 在此基礎上提出適用於電信系統應用的設計思想 , 詳細介紹了該系統的系統結構 、 關鍵技術的實現和各子系統功能 。 關鍵詞 :

資料倉儲 ; 聯機分析處理 ; 資料探勘中圖分類號 :tp311.13     文獻標識碼 :

athe t echnique and application of data w arehouse

xi angjun ,lei y ing 2jie

(missile institute of air f orce engineering university ,sanyuan   713800,china

abstract :this ***** introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system.

k ey w ords :data warehouse ;on 2line analytical processing ;data mining

0  引言

近年來 , 隨著企業計算機應用的不斷深入 , 大部

分企業已經投入了大量的時間和資源建立了龐大而複雜的資訊系統 , 積累了大量的寶貴資料資源 。 面對日益激烈的市場競爭和潛在的金融風險 , 這些企業迫切希望能有乙個強而有力的分析工具來幫助他們從這些海量的資料中充分挖掘有意義的資訊 , 以輔助高層領導者進行計畫和指導決策活動 。

資料倉儲的目的是為了建立一種體系化的資料儲存環境 , 將分析決策所需要的大量資料從傳統的操作環境中分離出來 , 使分散 、 不一致的運算元據轉成整合 、 統一的資訊 , 進而支援決策 。完整的資料倉儲包括三個方面的技術內容 :資料倉儲技術 、 聯機分析處理技術和資料探勘技術 。

該文對資料倉儲技術及其決策支援工具進行了詳盡的討論 , 並提出適用電信行業的方案設計思想 。

1  資料倉儲及其決策支援工具的概述

1. 1  資料倉儲 (data w arehouse

根據 w. h. inm on 的定義 :

「 資料倉儲是面向主題的 、 整合的 、 穩定的 、 隨時間變化的資料集合 , 用以支援決策制定過程 。 」 資料倉儲是乙個專門的資料倉儲物件 [1]。 它通過清理 、 轉移 、 分析 、 對映和綜合 , 形成統一的儲存格式 , 最終為使用者特別是決策支持者提供對公用資料的更好的訪問支援 。

資料倉儲有四個顯著特點 [2]:

(1 資料倉儲的面向主題性 。

主題是乙個抽象的概念 , 是在較高的層次上對企業資訊系統中的資料綜合 、 歸類後進行分析利用的抽象 。 在邏輯意義上 , 它是對應企業中某一巨集觀分析領域的分析物件 , 是針對某個決策問題而設定的 。

(2 資料倉儲的資料是整合的 。

資料倉儲中儲存的資料從原來的分散 、 異構的資料庫資料經過抽取 、 統一 、 綜合轉換成全域性統一的定義消除不一致和錯誤之處 。

(3 資料倉儲的資料是不可更新的 。

資料倉儲中的資料通常是一起載入與訪問的 , 在

計算機與現代化

2023年第 11期

j is uan j i   y u   xi andaih ua

總第 111期

資料倉儲環境中不進行一般意義上的資料更新 。所以資料在一定的時間間隔是穩定的 , 並且能反映企業當前和歷史的資料 。

(4 資料倉儲的資料是隨時間變化的 。

資料倉儲的資料隨時間變化不斷增加新的資料內容和刪去舊的資料內容 。資料倉儲中含有大量與時間有關的綜合資料 。

粒度是資料元素中包含的資訊的確切性程度 , 分為細粒度和粗粒度 [3]。它深深地影響存放在資料倉儲中的資料量的大小 , 影響儲存介質大小和查詢效率 ; 同時影響資料倉儲所能回答的查詢型別 , 即所能滿足的資訊分析的功能需求 。

1. 2  聯機分析處理 (olap 技術

o lap 是 on 2line analytical processing (聯機分析處理的首字母縮寫 , 是與資料倉儲密切相關的一種決策支援工具 , 是使管理人員和分析人員或執行人員能從多角度對原始資料轉化出來的 , 能夠真正為使用者所理解的並真實反映企業特性的資訊進行快速 、 一致 、 互動的訪問 , 從而獲得對資料的更深入了解的一類軟體技術 。 其目標是決策支援和多維環境特定的查詢和報表需求 , 其技術核心是 「維」 這個概念 , 維是人們觀察事物的角度 , 所以 o lap 也可以說是多維資料分析工具的集合 。運算元據儲存的兩種方式分別為多維資料儲存和關係資料儲存 , 由此形成了 o lap 的兩種實現結構 :

基於多維資料庫的 o lap (m o lap 實現和基於關聯式資料庫的 o lap (ro lap 實現 [4]。 m o lap 是以多維資料庫 (m dd 為基礎 ,m dd 將資料存放在乙個 n 維陣列中 , 存在著大量的稀疏資料 , 在事件發生的部位 , 資料聚合在一起 , 密度很大 , 成為稠密資料 [5]。 m dd 對稀疏資料進行壓縮儲存 , 以減少儲存空間占有量 , 而且資料綜合速度快 。

但多維資料庫管理系統缺乏標準且功能不強 。

ro lap 是以成熟的關係資料管理系統上 , 在靈活性和處理資料能力方面有優勢 。其不足是存放了大量細節資料和較少的綜合資料 , 有時需要犧牲效率為代價動態地綜合資料 。

1. 3  資料探勘 (dm 技術

資料探勘是一種決策支援過程 , 利用某些特定的知識從企業原有的資料中挖掘出潛在的模式 , **客戶的行為 , 幫助企業的決策者做出正確的決策 。 作為分析型工具 ,o lap 和 dm 在系統中占有相當重要的地位 , 但它們的應用範圍和側重點不同 ,o lap 是一種驗證型的分析工具 , 而 dm 是一種挖掘型的分析工具 , 它能自動地發現隱藏在資料中的模式 。 從對資料分析的深度的角度來看 ,o lap 位於較淺的層次 ,dm 所處的位置較深 。

儘管 dm 與 o lap 存在差異 , 但作為資料倉儲的工具層的組成部分 , 兩者相輔相成 , 相互結合 , 多維資料探勘 (o lam 是 o lap 和 dm 相結合的產物 。

2  電信系統資料倉儲技術應用方案隨著電信市場的逐漸開放 , 傳統的電信廠商面臨著國內外廠商的挑戰 , 電信廠商間的競爭將日趨激烈 。 因此必須依靠技術手段 , 建立一套良好的電信業務管理系統 , 使之能在不斷變化的市場需要中把握商機 , 滿足需要 。 建立基於資料倉儲的決策支援系統 , 是實現這一目標的保障 。

以往的電信行業中各個部門已經建立自己的資訊系統 , 經過多年的執行 , 已經儲存大量的實時系統執行資訊 、 原始營業資料及其它詳細資料 。 但由於這些系統間的分散 、 獨立不僅無法為管理決策提供科學依據 , 也無法滿足資訊一體化的要求 。 為了提供全面的客戶跟蹤和決策分析 , 提出了建立資料倉儲的構想 。

2. 1  系統的體系結構

系統可分為四個部分 :資料來源 (包括來自源於電信部門的內部業務資料和其它結構的外部資料 、 資料倉儲系統 、 決策支援層 (o lap 工具和 dm 工具和使用者介面 。 它們之間相互作用共同構成層次分明的決策支援系統 。

如圖 1。系統的工作流程 :底層資料來源的資料經抽取 、 轉換後進入資料倉儲 。

資料倉儲中的多維資料經 o lap 系統直接提供給一般的管理人員和高層的管理人員 。同時資料探勘工具從資料倉儲挖掘出有用的資訊可供高層人員做出**資訊性分析 。 通過使用者介面供使用者使用

。2. 2  資料倉儲的設計

資料倉儲的建立是至關重要的 , 它是管理人員管理決策和**分析的基礎 , 是實現系統功能的關鍵之一 , 必須保證正確的資料以正確的模式被抽取到資料倉儲中 。

(1 確定主題 。

如表 1不難看出 , 五個主題構成了資料倉儲的結構框架 。 資料倉儲中的基層資料隨著時間日積月累 , **非常複雜 , 不僅有內部資料 , 也有外部資料 , 其數 78

2023年第 11期項軍等 :資料倉儲技術與應用

據結構也不盡相同 , 必須經過抽取 、 轉換 、 傳輸和上載的資料採集過程 , 整合到資料倉儲中 , 資料倉儲包含原子資料層和具體歷史資料 。而多維資料庫則是對資料進行更高意義的概括 。 同時 , 按照決策的需要組織成面向主題的二維表 , 每個表描述主題的不同部分的資訊 , 而表與表之間通過主碼鍵和公共碼鍵聯絡 。

表 1  資料倉儲的主題域

主題屬性組公共碼鍵

客戶客戶分類 、 個體客戶 、 集體客戶 、

客戶基本檔案資訊

客戶 i d 號

業務業務類別 、 業務專案業務號費用客戶費用 、 業務費用計價費用號話費記錄話費分類 、 長途** 、 市話 、 移動通話話費專案號繳費記錄繳費專案分類 、 客戶繳費專案繳費專案號    (2 粒度的劃分 。

考慮到電信部門的資料倉儲中擁有大量資料 , 採用雙重粒度級來設計 。將部門每天的細節操作型資料 (細粒度的資料存放在資料倉儲的真實檔案層 , 並每隔乙個時間週期 (乙個月將這些資料從資料倉儲中轉移到乙個**低廉的儲存介質儲存 。這樣可以提高查詢內容的範圍 。

將每月的或是每年的綜合分析型資料 (粗粒度的資料存放在資料倉儲中 , 供分析人員使用 , 這些資料是經常被用到的 , 可以提高查詢效率 , 同時節省儲存費用 。

2. 3  olap 系統的建立

o lap 系統的設計重點在於如何組織資料倉儲中的綜合性資料 , 如何滿足前端使用者的多維資料分析需要 。 基於上面兩點考慮 , 選用基於多維資料組織的 o lap (m o lap 實現 。

資料倉儲與資料探勘

頻繁專案集.給定全域性專案集i和資料庫d,d中所有滿足使用者指定的最小支援度 minsupport 的專案集,即大於或等於minsupport的i的非空子集,稱為頻繁專案集 frequent itemsets 或者大專案集 large itemsets 在頻繁專案集中挑選出所有不被其他元素包含的頻繁...

資料倉儲專案技術方案

資料倉儲系統示意圖 說明 1.企業的各種應用平台可分為 事務 oltp 和 分析 olap 兩類,其中 事務主要包括了網管 計費 帳務 信用管理 客服 營業等業務平台 分析主要包括工程管理 計畫規劃 帳務分析 決策支援 綜合評價 統計分析等管理平台和包括資料探勘 話務及網路分析 客戶消費行為分析等專...

資料倉儲主題

3.4.2 理解資料倉儲中的主題 通過資訊包圖實際上確定了資料倉儲的主題和大部分元資料。這一節先講資料報圖和主題的關係。1 主題的概念 主題 subject 是在較高層次上將企業資訊系統中的資料進行綜合 歸類和分析利用的乙個抽象概念,每乙個主題基本對應乙個巨集觀的分析領域。在邏輯意義上,它是對應企業...