資料倉儲與資料探勘 實驗指導書

2022-11-02 09:33:05 字數 4592 閱讀 2439

(適用於資訊系統與資訊管理專業)

江蘇科技大學經濟管理學院

2012-2

目錄前言 1

實驗一、spss clementine 軟體功能演練 5

實驗二、spss clementine 資料視覺化 9

實驗三、決策樹c5.0 建模 10

實驗四、關聯規則挖掘 21

實驗五、欺詐遮蔽/異常檢測/神經網路 29

實驗六、分類和回歸樹節點(c&rt) 40

實驗七、多項 logistic 回歸 50

實驗八、綜合實驗:電力負荷** 56

一、課程簡介

資料探勘(data mining),就是從大量資料中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。資料探勘的廣義觀點:資料探勘就是從存放在資料庫,資料倉儲或其他資訊庫中的大量的資料中「挖掘」有趣知識的過程。

資料探勘,又稱為資料庫中知識發現(knowledge discovery in database, kdd),因此,資料探勘和資料倉儲的協同工作,一方面,可以迎合和簡化資料探勘過程中的重要步驟,提高資料探勘的效率和能力,確保資料探勘中資料**的廣泛性和完整性。另一方面,資料探勘技術已經成為資料倉儲應用中極為重要和相對獨立的方面和工具。

資料探勘有機結合了來自多學科技術,其中包括:資料庫、數理統計、機器學習、高效能計算、模式識別、神經網路、資料視覺化、資訊檢索、影象與訊號處理、空間資料分析等,這裡我們強調資料探勘所處理的是大規模資料,且其挖掘演算法應是高效的和可擴充套件的。通過資料探勘,可從資料庫中挖掘出有意義的知識、規律,或更高層次的資訊,並可以從多個角度對其進行瀏覽察看。

所挖掘出的知識可以幫助進行決策支援、過程控制、資訊管理、查詢處理等等。因此資料探勘被認為是資料庫系統最重要的前沿研究領域之一,也是資訊工業中最富有前景的資料庫應用領域之一。當前資料探勘應用主要集中在電信、零售、農業、網路日誌、銀行、電力、生物、天體、化工、醫藥等方面。

而據gartner的報告也指出,資料探勘會成為未來10年內重要的技術之一。

二、課程的任務和實驗的教學目標

課程編號:5405190

課程屬性:專業任選課

實驗學時:12

適用專業:資訊管理與資訊系統

先修課程:管理資訊系統、計算機基礎、資料庫技術、統計學

《資料倉儲與資料探勘》是一門理論和實踐相結合的課程,它在整個資訊系統與資訊管理專業中處於資訊系統應用的前沿應用的地位,是電腦科學的演算法理論基礎和資料庫、資料倉儲技術、統計技術的結合,以及在管理實踐中應用。其上機實驗的目的主要是實現資料探勘的主要演算法,訓練學生實際動手進行資料探勘設計和軟體應用的能力,加深對資料探勘相關概念和演算法的理解。

本課程具有技術性和實踐性較強的特點,因此,配合基本原理的講授,應當安排相應的實習操作。通過實驗和操作,使學生鞏固和加深資料倉儲與資料探勘理論知識,進一步加強學生獨立分析問題和解決問題的能力、綜合設計及創新能力的培養,為今後工作打下良好的基礎。經過多層次、多方式的全面訓練後,學生應達到下列要求:

1.進一步鞏固和加深資料倉儲與資料探勘基本知識的理解,提高綜合運用所學知識,建立和管理資料的能力。

2.能根據需要選學參考書,查閱相關的工具,通過獨立思考,深入鑽研有關問題,學會自己獨立分析問題、解決問題,具有一定的創新能力。

3.能正確處理大規模資料,選擇資料探勘工具的開發平台和相關的軟體解決實踐問題。

4.能獨立撰寫實驗報告,準確分析實驗結果,總結有關的問題,提出相關的建議。

三、實驗教材及參考書

理論課教材及參考書:

資料倉儲與資料探勘教程(叢書名: 高等院校資訊管理與資訊系統專業系列教材)作者: 陳文偉編著,清華大學出版社,2006.8

資料倉儲和資料探勘,蘇新寧等編著,清華大學出版社,2006.4

資料倉儲與資料探勘技術(第2版),陳京民編著,電子工業出版社,2007.11

jiawei han, micheline kamber. data mining: concepts and techniques.

高等教育出版社(影印版),2001.5.

ian h. witten, eibe frank. data mining:

practical machine learning tools and techniques (第二版). 機械工業出版社(影印版),2005.

richard j. roiger, michael w. geatz.

data mining: a tutorial-based primer.清華大學出版社,2003.

實驗教材:

資料探勘clementine應用實務,謝邦昌主編,機械工業出版社,2008.4

資料探勘原理與spss clementine應用寶典,元昌安主編,電子工業出版社,2009.8

四、實驗基本內容及學時分配

按照《資料倉儲與資料探勘》實驗教學大綱的要求,共設立實驗8個,總計20學時。試驗基本內容與學時分配如下表:

五、實驗方式與基本要求

1、本課程的實驗為非單獨設課,因此,應該課程的內容安排和進度,配合技術原理的講授,進行相應的操作和實驗。

2、該課以綜合性實驗為主,教師給出實驗題目,實驗前學生必須進行預習,

3、在規定的時間內,由學生獨立完成,出現問題,教師要引導學生獨立分析、解決,不得包辦代替。

4、實驗中按要求做好學生實驗情況及結果記錄,實驗後認真填寫實驗記錄。

5、 實驗指導書僅作為上機時的參考步驟,不能作為唯一的依據,以教材和課堂講授為準。

1、熟悉spss clementine 軟體功能和操作特點。

2、了解spss clementine 軟體的各選項面板和操作方法。

3、熟練掌握spss clementine 工作流程。

1、開啟spss clementine 軟體,逐一操作各選項,熟悉軟體功能。

2、開啟一有資料庫、或新建資料檔案,讀入spss clementine,並使用各種輸出節點,熟悉資料輸入輸出。(要求:至少做access資料庫檔案、excel檔案、txt檔案、可變檔案的匯入、匯出)

1、啟動 clementine:

請從 windows 的「開始」選單中選擇:

所有程式

spss clementine 11.1

spss clementine client 11.1

2、clementine視窗

當第一次啟動 clementine 時,工作區將以預設檢視開啟。中間的區域稱作流工作區。在 clementine 中,這將是用來工作的主要區域。

clementine 中絕大部分的資料和建模工具都在選項板中,該區域位於流工作區的下方。每個選項卡都包含一組以圖形表示資料探勘任務的節點,例如訪問和過濾資料,建立圖形和構建模型。

要將節點新增到工組區,可在節點擊項板中雙擊圖示或將其拖拽至工作區後釋放。隨後可將各個圖示連線以建立乙個表示資料流動的流。

視窗的右上方是輸出和物件管理器。這些選項卡用於檢視和管理各種 clementine 物件。

「流」選項卡包含了當前會話中開啟的所有流。可以將這些流儲存並關閉,也可將其新增到工程中。

「輸出」選項卡包含了由 clementine 中的流操作產生的各類檔案。可以顯示、重新命名和關閉此處所列的**、圖形和報告。

「模型」選項卡是乙個功能強大的工具,包含了在一次會話中產生的所有模型(即,已在 clementine 中構建完畢的模型)。通過它,可以對模型作更深入的檢視、將其新增至流中、匯出或為其加註解。

視窗右側底部的部分是工程工具,它用來建立和管理資料探勘工程。檢視在 clementine 中建立的工程有兩種方式 - 類檢視或 crisp-dm 檢視。 「crisp-dm」選項卡提供了一種組織工程的方式。

「類」選項卡提供了一種在 clementine 中按類別(即,按照所建立物件的類別)組織工作的方式。當要獲取資料、流、模型等物件的詳盡目錄時,這種檢視十分有用。

1、熟悉spss clementine 繪圖。

2、了解spss clementine 圖形選項面板各節點的使用方法。

3、熟練掌握spss clementine 資料視覺化流程。

1、開啟spss clementine 軟體,逐一操作各圖形選項面板,熟悉軟體功能。

2、開啟一有資料庫、或新建資料檔案,讀入spss clementine,並使用各種輸出節點,熟悉資料輸入輸出。(要求:至少做分布圖、直方圖、收集圖、多重散點圖、時間散點圖)

1、啟動 clementine:

請從 windows 的「開始」選單中選擇:

所有程式

pss clementine 11.1

spss clementine client 11.1

2、建立乙個流、匯入相關資料,開啟圖形選項面板

3、繪製以下各類圖形

(1)以顏色為層次的圖

(2)以大小為層次的圖

(3)以顏色、大小、形狀和透明度為層次的圖

(4)以面板圖為層次的圖

(5)三維收集圖

(6)動畫散點圖

(7)分布圖

(8)直方圖

(9)收集圖

(10)多重散點圖

未標準化時的多重散點圖

標準化後的多重散點圖

(11)網路圖

1、熟悉spss clementine建模方法。

2、掌握spss clementine分布圖、散點圖、網路圖的建立方法。

3、掌握決策樹c5.0決策方法。

1、建立散點圖。

資料倉儲與資料探勘

頻繁專案集.給定全域性專案集i和資料庫d,d中所有滿足使用者指定的最小支援度 minsupport 的專案集,即大於或等於minsupport的i的非空子集,稱為頻繁專案集 frequent itemsets 或者大專案集 large itemsets 在頻繁專案集中挑選出所有不被其他元素包含的頻繁...

資料倉儲和資料探勘

編號 data warehouse data mining 一 課內學時 32 學分 2 二 適用專業 計算機軟體與理論 計算機應用等。三 預修課程 資料庫 四 教學目的 通過資料倉儲和資料探勘的有關基礎知識介紹,使學生對其含義 作用及發展有所了解,為進一步做有關的研究打下基礎。五 大綱內容 第一章...

資料倉儲與資料探勘考試題

選擇題1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題 a.關聯規則發現 b.聚類 c.分類d.自然語言處理 2.將原始資料進行整合 變換 維度規約 數值規約是在以下哪個步驟的任務 a.頻繁模式挖掘 b.分類和 c.資料預處理 d.資料流挖掘 3.當不知道...