資料探勘和知識發現的技術 方法及應用

2021-05-15 10:12:59 字數 4578 閱讀 6732

概念基於internet的全球資訊系統的發展使我們擁有了前所未有的豐富資料。大量資訊在給人們帶來方便的同時也帶來了一大堆問題:第一是資訊過量,難以消化;第二是資訊真假難以辨識;第三是資訊保安難以保證;第四是資訊形式不一致,難以統一處理。

資料豐富、知識貧乏已經成為乙個典型問題。data mining(資料探勘)的目的就是有效地從海量資料中提取出需要的答案,實現「資料-〉資訊-〉知識-〉價值」的轉變過程。

data mining(資料探勘)是指用非平凡的方法從海量的資料中抽取出潛在的、有價值的知識(模型或規則)的過程。該術語還有其他一些同義詞:資料庫中的知識發現(knowledge discovery in databases)、資訊抽取(information extraction)、資訊發現(information discovery)、智慧型資料分析(intelligent data analysis)、探索式資料分析(exploratory data analysis)、資訊收穫(information harvesting)、資料考古(data archeology)等。

資料探勘的發展歷程大致如下:

1989 ijcai會議: 資料庫中的知識發現討論專題

–knowledge discovery in databases (g. piatetsky-shapiro and w. frawley, 1991)

1991-1994 kdd討論專題

–advances in knowledge discovery and data mining (u. fayyad, g. piatetsky-shapiro, p.

**yth, and r. uthurusamy, 1996)

1995-1998 kdd國際會議 (kdd』95-98)

–journal of data mining and knowledge discovery (1997)

1998 acm sigkdd, sigkdd』1999-2002 會議,以及sigkdd explorations

資料探勘方面更多的國際會議

–pakdd, pkdd, siam-data mining, (ieee) icdm, dawak, spie-dm, etc.

data mining(資料探勘)是資料庫研究、開發和應用最活躍的乙個分支,是多學科的交叉領域,它涉及資料庫技術、人工智慧、機器學習、神經網路、數學、統計學、模式識別、知識庫系統、知識獲取、資訊提取、高效能計算、平行計算、資料視覺化等多方面知識。

資料探勘技術從一開始就是面向應用的,它不僅是面向特定資料庫的簡單檢索查詢呼叫,而且要對這些資料進行微觀、中觀乃至巨集觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的資料對未來的活動進行**。例如加拿大bc省**公司要求加拿大simonfraser大學kdd研究組,根據其擁有十多年的客戶資料,總結、分析並提出新的**收費和管理辦法,制定既有利於公司又有利於客戶的優惠政策。這樣一來,就把人們對資料的應用,從低層次的末端查詢操作,提高到為各級經營決策者提供決策支援。

這種需求驅動力,比資料庫查詢更為強大。同時,這裡所說的資料探勘,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什麼機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易於被使用者理解,最好能用自然語言表達發現結果。

因此資料探勘的研究成果是很講求實際的。

技術data mining(資料探勘)主要任務有資料彙總、概念描述、分類、聚類、相關性分析、偏差分析、建模等。具體技術包括:

統計分析(statistical analysis)

常見的統計方法有回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯分析、費歇爾判別、非引數判別等)、聚類分析(系統聚類、動態聚類等)和探索性分析(主元分析法、相關分析法等)。其處理過程可以分為三個階段:蒐集資料、分析資料和進行推理。

決策樹(decision tree)

決策樹是一棵樹,樹的根節點是整個資料集合空間,每個分節點是對乙個單一變數的測試,該測試將資料集合空間分割成兩個或更多塊。每個葉節點是屬於單一類別的記錄。首先,通過訓練集生成決策樹,再通過測試集對決策樹進行修剪。

決策樹的功能是預言乙個新的記錄屬於哪一類。

決策樹分為分類樹和回歸樹兩種,分類樹對離散變數做決策樹,回歸樹對連續變數做決策樹。

通過遞迴分割的過程來構建決策樹:1 尋找初始**,整個訓練集作為產生決策樹的集合,訓練集每個記錄必須是已經分好類的。決定哪個屬性(field)域作為目前最好的分類指標。

一般的做法是窮盡所有的屬性域,對每個屬性域**的好壞做出量化,計算出最好的乙個**。量化的標準是計算每個**的多樣性(diversity)指標gini指標。2 樹增長到一棵完整的樹,重複第一步,直至每個葉節點內的記錄都屬於同一類。

3 資料的修剪,去掉一些可能是噪音或者異常的資料。

其基本演算法(貪心演算法)為:自上而下分而治之的方法,開始時,所有的資料都在根節點;屬性都是種類字段 (如果是連續的,將其離散化);所有記錄用所選屬性遞迴的進行分割;屬性的選擇是基於乙個啟發式規則或者乙個統計的度量 (如, information gain)。停止分割的條件:

乙個節點上的資料都是屬於同乙個類別;沒有屬性可以再用於對資料進行分割。

偽**(building tree)為:

procedure buildtree(s) }}

屬性選擇的統計度量為:?資訊增益——information gain (id3/c4.5),所有屬性假設都是種類字段,經過修改之後可以適用於數值字段;?

基尼指數——gini index (ibm intelligentminer),能夠適用於種類和數值字段。

關聯規則(correlation rules)

規則反映了資料項中某些屬性或資料集中某些資料項之間的統計相關性,其一般形式為: x1∧…∧xn y[c,s],表示由x1∧…∧xn可以**y,其中可信度為c,支援度為s。

設i=是二進位制文字的集合,其中的元素稱為項(item)。記d為交易(transaction)t的集合,這裡交易t是項的集合,並且ti 。對應每乙個交易有唯一的標識,如交易號,記作tid。

設x是乙個i中項的集合,如果xt,那麼稱交易t包含x。

乙個關聯規則是形如xy的蘊涵式,這裡xi, yi,並且xy=f。規則xy在交易資料庫d中的支援度(support)是交易集中包含x和y的交易數與所有交易數之比,記為support(xy),即

support(xy)=||/|d|

規則xy在交易集中的可信度(confidence)是指包含x和y的交易數與包含x的交易數之比,記為confidence(xy),即

confidence(xy)=||/||

給定乙個交易集d,挖掘關聯規則問題就是產生支援度和可信度分別大於使用者給定的最小支援度(minsupp)和最小可信度(minconf)的關聯規則。

基於規則中處理的變數的類別,關聯規則可以分為布林型和數值型。布林型關聯規則處理的值都是離散的、種類化的,它顯示了這些變數之間的關係;而數值型關聯規則可以和多維關聯或多層關聯規則結合起來,對數值型字段進行處理,將其進行動態的分割,或者直接對原始的資料進行處理,當然數值型關聯規則中也可以包含種類變數。基於規則中資料的抽象層次,可以分為單層關聯規則和多層關聯規則。

在單層的關聯規則中,所有的變數都沒有考慮到現實的資料是具有多個不同的層次的;而在多層的關聯規則中,對資料的多層性已經進行了充分的考慮。基於規則中涉及到的資料的維數,關聯規則可以分為單維的和多維的。在單維的關聯規則中,我們只涉及到資料的乙個維,如使用者購買的物品;而在多維的關聯規則中,要處理的資料將會涉及多個維。

agrawal等於2023年首先提出了挖掘顧客交易資料庫中項集間的關聯規則問題,其核心方法是基於頻集理論的遞推方法。以後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究。他們的工作包括對原有的演算法進行優化,如引入隨機取樣、並行的思想等,以提高演算法挖掘規則的效率;提出各種變體,如泛化的關聯規則、週期關聯規則等,對關聯規則的應用進行推廣。

agrawal等在2023年設計了乙個基本演算法,提出了挖掘關聯規則的乙個重要方法 — 這是乙個基於兩階段頻集思想的方法,將關聯規則挖掘演算法的設計可以分解為兩個子問題:

1) 找到所有支援度大於最小支援度的項集(itemset),這些項集稱為頻集(frequent itemset)。

2) 使用第1步找到的頻集產生期望的規則。

這裡的第2步相對簡單一點。如給定了乙個頻集y=i1i2...ik,k2,ij∈i,產生只包含集合中的項的所有規則(最多k條),其中每一條規則的右部只有一項,(即形如[y-ii]ii,"1ik)。

一旦這些規則被生成,那麼只有那些大於使用者給定的最小可信度的規則才被留下來。對於規則右部含兩個以上項的規則,在其以後的工作中進行了研究。為了生成所有頻集,使用了遞推的方法。

其核心思想如下:

l1 = ;

for (k=2; lk-1f; k++)

lk=answer=klk;

首先產生頻繁1-項集l1,然後是頻繁2-項集l2,直到有某個r值使得lr為空,這時演算法停止。這裡在第k次迴圈中,過程先產生候選k-項集的集合ck,ck中的每乙個項集是對兩個只有乙個項不同的屬於lk-1的頻集做乙個(k-2)-連線來產生的。ck中的項集是用來產生頻集的候選集,最後的頻集lk必須是ck的乙個子集。

ck中的每個元素需在交易資料庫中進行驗證來決定其是否加入lk,這裡的驗證過程是演算法效能的乙個瓶頸。這個方法要求多次掃瞄可能很大的交易資料庫,即如果頻集最多包含10個項,那麼就需要掃瞄交易資料庫10遍,這需要很大的i/o負載。

資料探勘與知識發現 講稿6粗糙集挖掘技術

第6章基於粗糙集 rough set 理論的資料探勘技術 粗糙集理論是由波蘭華沙理工大學數學家於1982年提出的一種資料分析理論,該理論在分類意義下定義了模糊性和不確定性兩個概念。是一種處理不完整資料 不精確知識的表達 學習 歸納等的一種新型數學工具。粗集理論的重要特點是 不需要任何附加資訊或先驗知...

資料探勘與知識發現 講稿4決策樹學習技術

第四章決策樹 decision tree 決策樹也是歸納學習中常用的一種知識表示形式,常用於分類。同時,也是發現概念描述空間的一種有效方法。決策樹的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。教學目的 掌握決策樹學習的概念 重點掌握id3學習演算法以及決策樹的構造 了解目前常用的決策樹...

基於資料探勘技術的高校教學方法研究

作者 王曉燕何月順楊 科技經濟市場 2009年第02期 摘要 本文提出了乙個基於資料探勘技術的個性化學習系統模型,使用資料探勘技術發現每個學生的個性 學習行為 學習反饋資訊和教師感興趣的有關教學的資訊,及時調整教學策略,制定適合學生個性的教學內容和教學活動。基於該模型實現的個性化學習系統真正體現了因...