資料探勘及其應用

2023-02-04 10:39:03 字數 5045 閱讀 3732

《資料探勘**》

課程名稱:資料探勘概念與技術

姓名學號

指導教師

資料探勘分類方法及其應用

作者: 來煜

摘要:社會的發展進入了網路資訊時代,各種形式的資料海量產生,在這些資料的背後隱藏這許多重要的資訊,如何從這些資料中找出某種規律,發現有用資訊,越來越受到關注。為了適應資訊處理新需求和社會發展各方面的迫切需要而發展起來一種新的資訊分析技術,這種局勢稱為資料探勘。

分類技術是資料探勘中應用領域極其廣泛的重要技術之一。各種分類演算法有其自身的優劣,適合於不同的領域。目前隨著新技術和新領域的不斷出現,對分類方法提出了新的要求。

。關鍵字:資料探勘;分類方法;資料分析

● 引言

資料是知識的源泉。但是,擁有大量的資料與擁有許多有用的知識完全是兩回事。過去幾年中,從資料庫中發現知識這一領域發展的很快。

廣闊的市場和研究利益促使這一領域的飛速發展。計算機技術和資料收集技術的進步使人們可以從更加廣泛的範圍和幾年前不可想象的速度收集和儲存資訊。收集資料是為了得到資訊,然而大量的資料本身並不意味資訊。

儘管現代的資料庫技術使我們很容易儲存大量的資料流,但現在還沒有一種成熟的技術幫助我們分析、理解並使資料以可理解的資訊表示出來。在過去,我們常用的知識獲取方法是由知識工程師把專家經驗知識經過分析、篩選、比較、綜合、再提取出知識和規則。然而,由於知識工程師所擁有知識的有侷限性,所以對於獲得知識的可信度就應該打個折扣。

目前,傳統的知識獲取技術面對巨型資料倉儲無能為力,資料探勘技術就應運而生。

資料的迅速增加與資料分析方法的滯後之間的矛盾越來越突出,人們希望在對已有的大量資料分析的基礎上進行科學研究、商業決策或者企業管理,但是目前所擁有的資料分析工具很難對資料進行深層次的處理,使得人們只能望「數」興嘆。資料探勘正是為了解決傳統分析方法的不足,並針對大規模資料的分析處理而出現的。資料探勘通過在大量資料的基礎上對各種學習演算法的訓練,得到資料物件間的關係模式,這些模式反映了資料的內在特性,是對資料報含資訊的更高層次的抽象。

目前,在需要處理大資料量的科研領域中,資料探勘受到越來越多的關注,同時,在實際問題中,大量成功運用資料探勘的例項說明了資料探勘對科學研究具有很大的促進作用。資料探勘可以幫助人們對大規模資料進行高效的分析處理,以節約時間,將更多的精力投入到更高層的研究中,從而提高科研工作的效率。

分類技術是資料探勘中應用領域極其廣泛的重要技術之一。至今已提出了多種分類演算法,主要有決策樹、關聯規則、神經網路、支援向量機和貝葉斯、k-臨近法、遺傳演算法、粗糙集以及模糊邏輯技術等。大部分技術都是使用學習演算法確定分類模型,擬合輸入資料中樣本類別和屬性集之間的聯絡,**未知樣本的類別。

訓練演算法的主要目標是建立具有好的泛化能力的模型,該模型能夠準確地**未知樣本的類別。

1.資料探勘概述

資料探勘又稱資料庫中的知識發現,是目前人工智慧和資料庫領域研究的熱點問題,所謂資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等,高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。

資料探勘是通過分析每個資料,從大量資料中尋找其規律的技術,主要有資料準備、規律尋找和規律表示3個步驟。資料準備是從相關的資料來源中選取所需的資料並整合成用於資料探勘的資料集;規律尋找是用某種方法將資料集所含的規律找出來;規律表示是盡可能以使用者可理解的方式(如視覺化)將找出的規律表示出來。

分類技術是資料探勘中應用領域極其廣泛的重要技術之一。各種分類演算法有其自身的優劣,適合於不同的領域。目前隨著新技術和新領域的不斷出現,對分類方法提出了新的要求。

2.資料探勘分類演算法介紹

分類是用於識別什麼樣的事務屬於哪一類的方法,可用於分類的演算法有決策樹、關聯規則、神經網路、支援向量機和貝葉斯、k-臨近法、遺傳演算法、粗糙集以及模糊邏輯技術等。下面對若干分類問題進行簡要分析。

2.1基於決策樹的分類

基於決策樹的分類演算法是資料探勘中最為典型的分類演算法。決策樹是乙個類似於流程圖的樹結構,其每個內部節點表示在乙個屬性上的測試,每個分枝代表乙個測試輸出,每個葉節點代表類或類分布。

2.1.1決策樹演算法基本思想。開始時所有的訓練樣本在根部,基於最高資訊增益自頂向下遞迴地劃分資料集,生成決策樹。當乙個結點上所有樣本都屬於同一類或者沒有剩餘屬性可以用來進一步劃分樣本時停止劃分,形成乙個葉結點。

如果葉結點上的樣本不屬於同一類,則根據大多數樣本的分類來確定葉結點的類別。

建立決策樹時,因資料中存在雜訊和孤立點,許多分枝反映的是訓練資料集中的異常。剪枝方法可以剪去不可靠的分枝,提高分類速度和分類的準確度。常用的剪枝方法有:

先剪枝和後剪枝。前者通過提前停止樹的構造而對樹剪枝;後者在完全建立好的樹上剪去分枝。

2.1.2典型的決策樹演算法。最為典型的決策樹學習演算法是id3,它採用自頂向下不回溯策略,能保證找到乙個簡單的樹。演算法c4.5和c5.0是id3的擴充套件,它們將分類領域從類別屬性擴充套件到數值型屬性。

在決策樹中,從根到樹葉的每條路徑以if—then形式表示一條分類規則,沿著給定路徑上的每個屬性一值對形成規則前件的乙個合取項,葉結點包含類**,形成規則後件。

2.1.3優缺點。決策樹很擅長處理非數值型資料,從決策樹中可以方便地提取分類規則。其主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。

不足之處是id3演算法偏向於選擇屬性較多的屬性,而屬性較多的屬性往往不是最優的屬性:學習簡單的邏輯表達能力較差。

2.2基於統計的分類

貝葉斯分類演算法是基於貝葉斯定理的一種統計學分類演算法。它們可以**類成員關係的可能性,如給定樣本屬於乙個特定類的概率。如果出現類別重疊現象,貝葉斯分類演算法採用兩種方法處理這種情況:

一是選擇後驗概率最大的類別,二是選擇效用函式最大(或損失最小)的類別。貝葉斯分類也是一種常用的分類方法,它是一種對屬性集和類變數的概率關係建模的方法。其理論基礎是貝葉斯定理,可用式2.2.[1]表示。

p(c|x)=p(x|c)p(c)/p(x2.2.[1]

其中x是類標號未知的資料樣本。設c為某種假定,如資料樣本i屬於某特定類民則p(c|x)為c成立的概率,也稱為類c的先驗概率;p(x)為x的支援度。p(c|x)是規定資料樣本x,假定c成立的概率,稱作類c的後驗概率。

p(xvc)是假定c成立的情況下,樣本x的支援度,也稱為類條件概率。

準確估計類標號和屬性值的每一種可能組合的後驗概率非常困難,因為即便屬性數目不是很大,仍然需要很大的訓練集。此時,貝葉斯定理很有用,因為它允許我們用先驗概率p(c)、類條件概率p(x|c)和p(x)來表示後驗概率。

在比較不同類c的後驗概率時,分母p(x)總是常數,因此可以忽略。先驗概率p(c)可以通過計算訓練集中屬於每個類的訓練記錄所佔的比例很容易地估計。因此類c的後驗概率p(x|c)的確定取決於對類條件概率p(x|c)的估計。

對類條件概率p(x|c)的估計,常使用兩種貝葉斯分類方法來實現:樸素貝葉斯分類和貝葉斯信念網路。

2.3基於神經網路的分類

2.3.1基本思想。經常用於分類的還有人工神經網路方法。神經網路[3]為解決大複雜度問題提供了一種相對來說比較有效的簡單方法,它是模仿人腦神經網路的結構和某些工作機制而建立的一種非線形**模型,經過學習進行模式識別的。

其工作機理是通過學習改變神經元之間的連線強度。神經網路有前向神經網路、反饋神經網路、自組織神經網路等,在神經網路中,由權重和網路的拓撲結構決定了它所能識別的模式型別。神經網路分類過程可以分為訓練和分類兩個階段。

在訓練階段,首先定義網路的拓撲結構,再對訓練樣本中的每個屬性的值進行規範化預處理,然後用神經網路對已預處理的輸入進行學習。訓練完畢後,用訓練好的神經網路對標識樣本進行分類。

最流行的神經網路學習演算法是後向傳播演算法。後向傳播演算法是在多層前饋神經網路上進行學習的。這種神經網路具有乙個輸入層和乙個輸出層,在兩者之間可能包含多個中間層,這些中間層叫做隱藏層。

後向傳播通過迭代地處理一組訓練樣本,將每個樣本的網路**與實際知道的類標號比較,進行學習。對於每個訓練樣本,修改權值,使得網路**和實際類之間的均方誤差最小。這種修改後向進行,即由輸出層,經由每個隱藏層,到第乙個隱藏層。

一般的,權將最終收斂,學習過程停止。演算法的每一次迭代包括兩個階段:前向階段和後向階段。

在前向階段,使用前一次迭代所得到的權值計算網路中每乙個神經元的輸出值。計算是向前進行的,先計算第k層神經元的輸出,再計算第k+1層的輸出。在後向階段,以相反的方向應用權值更新公式,先更新k+1層的權值,再更新第k層的權值。

2.3.2優缺點。神經網路法的優點是有較強的抗噪能力,對未經訓練的資料也具有較好的**分類能力。神經網路的主要缺點是用加權鏈鏈結單元的網路所表示的知識很難被人理解、學習時間較長,僅適用於時間容許的應用場合;對於如網路結構等關鍵引數,通常需要經驗方能有效確定。

2.4基於源自關聯規則挖掘概念的分類

2.4.1基本思想。關聯規則聚類系統是基於聚類挖掘關聯規則,然後使用規則進行分類。挖掘形如aquan1∧aquan2→acat的關聯規則;其中,aquan1,aquan2是在量化屬性區間上的測試,為給定訓練資料的分類屬性指定乙個類標號。

關聯規則畫在2-d柵格上。演算法掃瞄柵格,搜尋規則的矩形聚類。由arcs產生的聚類關聯規則用於分類,其準確率與c4.5差不多,精確度比c4.5高一點。

關聯分類挖掘形如condset→y的規則,condset是項屬性一值對的集合,y是類標號。若給定資料集中的樣本s%包含condset並且屬於類y,則規則的支援度為s。若規則滿足預先指定的最小支援度,則該規則是頻繁;若給定資料集中包含conset的樣本c%屬於類y,則規則的置信度為c;若滿足最小置信度,則該規則是精確的。

如果乙個規則項集具有相同的condset,則選擇具有最高置信度的規則作為可能規則,代表該集合。

2.4.2關聯分類方法由兩步組成。第一步是找出所有頻繁的、精確的pr集合。演算法使用迭代方法,類似apriori。

第二步使用一種啟發式方法構造分類,發現的規則按支援度和置信度遞減的優先次序組織,用滿足新樣本滿足該樣本的第乙個規則對其分類。cba是關聯分類的經典演算法,該方法比c4.5更精確。

2.5其他分類方法

用於資料分類的方法還有:基於案例的推理分類法、遺傳演算法等。

2.5.1基於案例的推理分類法。基於案例的推理分類法是基於要求的,其存放的樣本是複雜的符號描述。當給定乙個待分類的新案例時,基於案例的推理首先檢查是否存在乙個同樣的訓練案例。

如果找到乙個,則返回附在該案例上的解。如果找不到同樣的案例,則基於案例的推理將搜尋具有類似於新案例成分的訓練案例,這些訓練案例可視為新案例的鄰接者。

資料探勘之藥物應用分析

基於clementine 12.0 的藥物應用分析實驗報告 一 實驗目的 1 理解對大型的 複雜的和資訊豐富的資料集進行分析的必要性 2 了解資料探勘軟體 spss clementine 的基本功能。3 通過案例了解決策樹和人工神經網路技術的實際應用。二 實驗環境 1 實驗裝置 聯想台式計算機 2 ...

資料探勘技術及其在圖書管理系統中的應用

摘要 利用資料探勘技術,提出一種面向圖書館讀者的簡單可行的檔案分類方法,該方法只需要 日誌檔案中有關於讀者使用的瀏覽紀錄即可達到檔案分類的功能。以這樣的方式來進行資料和檔案分類,可以方便圖書管理系統的維護,並為讀者查詢利用館藏資源提供便利。而且該方法可以更直接的反應讀者的興趣與偏好,有利於圖書館資源...

旅遊大資料與挖掘及其在旅遊行業的應用方向

摘要 近些年來,隨著時代經濟的飛速發展以及科學技術的日新月異,旅遊行業逐漸蓬勃發展逐漸引領當今時代發展的潮流。同時,當前大資料時代的來臨也是當今 關注的熱門話題之一。對於如何在旅遊行業中應用旅遊大資料始終是旅遊行業領域研究的焦點之一。本文在對旅遊大資料與挖掘及其在旅遊行業的應用方向研究的同時,首先對...