基於DBSCAN和K MEANS聚類演算法

2023-01-17 22:06:03 字數 2096 閱讀 8877

本文**:腳印**網

在當前的資料探勘技術中,應用到入侵檢測系統的典型演算法主要有4種:頻繁情節規則挖掘演算法,關聯規則挖掘演算法,分類演算法,聚類演算法。其中前3種是基於有訓練指導的學習方法,要建立資料訓練模型。

假如在訓練資料集中含有一些潛在的攻擊行為,則該演算法就不能正常檢測出入侵行為。而聚類演算法,則是一種基於無指導的學習方法,它是基於相似性進行對記錄分組,而不需要進行訓練資料的過程。本文所採用的演算法,正是基於無指導的聚類演算法[3]。

dbscan演算法是一種在密度基礎上的有效聚類演算法,借助於類密度連通性,及時地計算出可能的形狀類。dbscan演算法的主要思想為:針對類中不包括邊界點任何乙個點p,在給定的某個eps鄰域內,資料點的總數量要大於minpts[4]。

dbscan演算法在文字中高維資料的處理方面具有非常好的效能,然而該演算法的eps及minpts引數的設定非常重要,執行演算法時,引數設定的合理與否,對於聚類的效果會有非常大的影響[5]。因而對於eps及minpts引數的設定成為本文尤其需要考慮的乙個重點。本文利用聚類劃分演算法中的k-means演算法,對當前的使用者行為資料庫實施聚類劃分,進行入侵行為的檢測,並確定eps及minpts引數的具體值。

傳統的k-means概念是:在資料庫中,存在n個元組或者物件,通過實施聚類劃分法,將資料劃成k份,共有k個聚簇(k≤n),劃分規則是每乙個組含有不少於乙個的物件,每乙個物件只能屬於乙個組。

劃分法在進行了初始劃分後,利用迭代方法,通過物件在劃分間的不斷調整以優化劃分效果。為了確保劃分的質量,屬於相同類的物件之間要盡量相關或者「接近」,屬於不同類中的物件之間盡量「遠離」,通過不斷的窮舉劃分,達到全域性最優的效果。k-means演算法流程圖1所示。

由上可知,傳統的k-means演算法存在一些不足:

(1)需要首先明確最後聚類的個數k,然後以k個數的記錄作為起始聚類中心,對全部記錄集實施重複的掃瞄,不斷調整聚類中心及聚類,而在實際使用過程中,通常較難確定最佳聚類效果的聚類個數。

(2)在聚類結果中,會產生空聚類情況,即沒有物件與該聚類的聚類中心相似。

(3)初始聚類中心對聚類結果影響很大,初始聚類隨機產生的初始聚類中心往往非最佳中心。

首先介紹一下資訊熵的概念。資訊嫡是測量乙個隨機變數的資訊及其不確定性。假如為隨機變數,函式為隨機變數全部值集合,表示隨機便利的概率,則資訊嫡可以表示為:

,對於含有多個屬性的記錄的熵,則變換如下:

假如記錄的屬性間互不依賴,那麼就能夠變換成:

。也就是說,屬性值聯合概率能夠變化成單個屬性概率的相乘之積,資訊嫡從而就可以用所有的屬性資訊嫡之和來表示。通常資訊墒能夠被用來進行對系統「無序」狀態測量。

資訊嫡值越小,表明系統的資料越有序;資訊嫡值越大,表明系統的資料越無序。假如把資訊嫡引入至聚類方法中來,因為資訊熵關聯於記錄中屬性的概率,因此,屬性的取值可以是離散的,無序的,說明資訊嫡比較適合處理具有分類屬性的記錄的聚類問題。在相同的聚類中,如果資料越相似程度高,則資料就有序。

至此可以認為,採用資訊嫡進行聚類評估優劣的理論標準是,資訊嫡的值越小,其聚類效果就越好。

根據上面關於資訊熵的結論,初始簇中心的選擇過程為:首先,計算樣本空間m中所有記錄的資訊嫡,依據資訊嫡值,把所有的記錄和樣本空間m中記錄資訊嫡進行對比,尋找到資訊嫡最小那個記錄,以此最小資訊嫡值作為該記錄基準資訊嫡,從本質上來說,基準資訊嫡表現的是該記錄和m中記錄的最大相似性;其次,將全部基準資訊嫡實施全面的對比,基準資訊嫡值越大,則表明該記錄和其它記錄不相似程度越高。依據此判斷規則,從而能夠計算出相似性程度最低的記錄。

最後,把這些記錄分給各個聚類,形成初始聚類記錄。

改進後的k-means演算法如圖2所示。將2和圖1進行對比,可以看出,改進後演算法效率明顯得到了提高。根據資訊嫡的計算方法,可以有效地解決資料集初始簇中心的問題,在很大程度上避免了盲目選擇簇中心的現象。

將dbscan與改進後的k-means演算法進行綜合,描述如下:

(1)選擇需要輸入的聚類數目k值;

(2)計算出物件基準資訊嫡的值,通過該基準資訊嫡,明確k-means的初始簇中心;

(3)完成初始簇中心判定後,通過k-means演算法計算出k個聚類;

(4)根據圖2改進的k-means演算法,計算出dbscan演算法的2個引數,eps及minpts;

(5)使用dbscan(eps,minpts)演算法,再次分析該k個聚類中異常記錄集合,從而獲得更優結果

本文**:腳印**網

基於問題學習和基於專案學習的案例和區別

基於專案學習案例 案例分析 人類活動對興凱湖自然環境的影響 人類活動對興凱湖自然環境的影響 是教育部 微軟 中國 攜手助學 資訊科技創新應用主題活動之一,是乙個典型的pbl教學案例。為了了解興凱湖地區自然資源和生態環境在60年間發生的變化,學生通過社會調查 專題訪談 實地考察 網路資訊搜尋 資料綜合...

基於FPGA的FIFO設計和應用

技術分類 可程式設計器件 2009 11 20 張奇山劉安芝劉希順 引言在利用dsp實現 實時跟蹤時,需要進行大量高速的影象採集。而dsp本身自帶的fifo並不足以支援系統中大量資料的暫時儲存,這就要求大的中間快取,而專用的高速fifo晶元 昂貴且容量受限,大大增加了商業成本,因此在實際應用中尋找f...

基於要素計點法的崗位評價諾和商務

2016年4月18日 一 公司簡介 3 二 公司組織結構圖 4 三 選擇報酬要素 5 四 要素評級 5 五 各要素權重與點數的確定 7 六 典型職位評價 7 七 作業體會 10 附件 10 一 公司簡介 諾和公司成立於1994年,美商獨資企業,有十多年專業的國際業務經驗。扎根中華大地,時刻站在科技前...