基於聚類的Web日誌挖掘方法探析

2022-11-10 23:18:05 字數 2753 閱讀 7702

電孑商務

基手[關鍵詞】聚類

一的web 志掘方法析

_顧黎萍

常州工學院

姜靈敏廣東外語外貿大學

[摘要】本文針對國內中小型電子商務**伺服器資料較少的特點以及資料的物理意義,採用了一種將資料匯入exce

資料庫並利用連環聚類的方法來處理web資料的方法,為中小型電子商務**的決策分析提供了一種較為簡單的方法。

web日誌挖掘電子商務

引言類中,此類資料的誤導性極大.因此必須將其隔離:而對於一些

國內的中小型電子商務**發展還很不健全.其瀏覽的使用者不表現出了相當不同的行為特點的類別,可以將其保留,待第二階

多日誌資料相對較少、從事後台資料分析的人員很少或沒有。段聚類結束後與其結果一併歸入exce]資料庫進行分析對於第

如何避免像大型電子商務**一樣採用大量演算法來對資料進行預處理.而又能對目志資料進行挖掘.從而分析使用者需求、向使用者進行個性化推薦、改進網頁設計是目前中小型電子商務開發商急需考慮的乙個問題。

二 web日誌挖掘過程分析

web日誌挖掘通過分析和研究web日誌記錄中的規律識別電子商務的潛在使用者.提高對終端使用者資訊服務的質量並改進web服務系統的效能和結構。

1利用excel資料庫進行web日誌預處理。web日誌檔案記錄中儲存的是使用者訪問站點資訊的原始記錄.在使用演算法或工具對其分析之前,必須進行預處理。預處理過程是web日誌挖掘質量保證的關鍵,因為處理後的資料好壞、全面與否直接影響到資料探勘的結果進而對電子商務開發商的決策造成直接影響。

特別是中小型電子商務**其資料相對較少,因此資料處理的準確性極為重要

中小型電子商務**由於瀏覽和交易人數少可將資料直接匯入excel資料庫,在excel中進行資料爭化、使用者識別。同時由於**設計人員的知識架構、技術層次以及對所要設計的**內

容的了解程度的限制.很難建立乙個完全反映**邏輯資訊、無重複內容網頁的**,必須進行一定程度的合併,從而將其分成能反映**邏輯資訊的同質類別。

2連環聚類法在web日誌挖掘中的應用。聚類分析成功地應用於眾多領域.在此主要是利用k~means快速聚類演算法對資料進行聚類分析,以識別使用者樣本不同的行為段。由於此演算法的聚類結果有一定的缺陷,本文採取了連環聚類的方法來對樣本資料進

行聚類以彌補快速聚類演算法的不足。

對於電子商務**來說.一般都存在外部客戶瀏覽網頁的資料和內部管理人員瀏覽網頁的資料兩類。因此.首先對web曰志資料進行劃分.分為內部系統和外部登入兩部分樣本資料可以減少日誌挖掘的工作量同時,分別對外部登入資料和內部系統資料進行聚類分析也有助於增加聚類結果的可靠性。其次.對資料進行連環聚類也即對某些聚類效果不明顯的聚類結果進行再次聚類可以增加聚類結果的清晰度。

(1)外部登入資料連環聚類。快速聚類分析是對使用者指定類別的大樣本資料的逐步聚類分析。其缺陷在於不能像層次聚類那樣對不同聚類類數產生一系列的聚類解且聚類結果錯誤率較高。

根據快速聚類分析存在的缺陷,可對外部登入樣本資料進行兩個階段的聚類分析。

第一階段聚類是首先根據資料矩陣的特點將聚類數暫定為幾類.經反覆幾次聚類,最終確定下聚類數。接著將聚類結果導

八excei資料庫進行分析.可以發現有些類別的資料極少在聚龜53《商場現代化中旬幹lj)總第56o,hlf

三種由於類內差異較大.但是資料又比較多且較重要的類別,接著對其資料進行第二階段聚類,進而獲得更為明確的聚類結果。將兩階段的聚類結果匯入excel資料庫分析整合.可以得到乙個較為明確的聚類結果。如:

某一類使用者僅僅在**上瀏覽了幾個網頁.一般稱為偶然使用者。對於這類使用者.顯然不可能從中得到乙個有用的、潛在的訪問模式來,因為他們對**的訪問具有很大的偶然性.對具體網頁的

訪問也有著很大的隨機性.所以如果從這些使用者的訪問條目中來提

取使用者的訪問模式顯然是不具有典型性和代表性的而這種訪問模

式對電子商務的具體應用也就不具有任何指導性。另一類使用者主要瀏覽某一網頁組,對這一網頁組瀏覽次數較多.而對其他網頁很少

涉及,幾乎不瀏覽.可以判定此類使用者是該**某一類網頁的長期

使用者。第三類使用者為多主題行為的使用者,即經常瀏覽**上的各個

網頁組。與好奇使用者(出於對網頁內容的好奇而對每個網頁組的網

頁都有瀏覽.但瀏覽次數不多且不重複)不同.多主題行為使用者的

瀏覽次數較多.因此可能就帶有一定的商業傾向,電子商務開發商可以對該類使用者特徵加以分析,進行運用。

當然使用者類別可能不止此幾種,但都可以根據他們的瀏覽內容得

出結果並用於電子商務決策。將直接聚類結果與連環聚類結果比較,可以證明連環聚類較好的彌補了快速聚類演算法的缺陷.是比較有效的。(2)內部系統資料聚類。內部系統的登入人員主要是**內部

工作人員.目的是對**進行管理。如:如果聚類後分析發現某報障系統網頁組的登陸率極高那麼,就能夠盡快找出故障所在,

及時排除故障提高**運營效率。對於乙個電子商務**通過外部登入資料連環聚類得到相似性使用者訪問的聚類簇.能夠為電子商務開發商提供詳細的使用者

反饋.幫助他們根據實際使用者的瀏覽情況.調整**的網頁鏈結結構和網頁內容.對**進行優化.從而延長使用者的駐留時間、

挽留老使用者、吸引新使用者並增加使用者的購買率.以此獲得電子商務**的成功執行而通過內部系統資料聚類.也可以明確網

站運營的缺陷在**.從而加以改進。

三、結論

對於國內中小型電子商務**來說 web日誌挖掘結果對電

子商務**的發展起著至關重要的作用。基於excei資料庫和連環

聚類的web日誌挖掘法具有成本小、簡單、易操作等特點.對規

模不大、資金實力不強的**發展具有重大的意義。

[1】譚春輝:電子商務管理與web資料探勘技術的契合探析[j】.情報雜誌

[2】凌傳繁:web挖掘技術在電子商務中的應用【j].情報雜誌.

基於XML的Web資料探勘及應用模式研究

摘要 本文分析了web網頁的資料探勘最新技術及發展方向,介紹了基於xml的web資料探勘的特點,提出了基於xml的資料抽取技術,最終得到所需的資料並通過乙個通用的應用模式進行挖掘的全過程。關鍵詞 資料探勘 web挖掘 xml web技術的飛速發展,在促使人們資訊交流的方式變的更加方便快捷的同時,也積...

結合模糊聚類演算法的影象分割方法

第 卷第 期電腦開發與應用 文軍編號 結合模糊聚類演算法的影象分割方法 張勇昌 江蘇建築職業技術學院公共基礎學院江蘇徐州 摘要 在介紹聚類分析原理的基礎上,比較了幾種聚類分割演算法,得出了模糊 一均值聚類方法在影象分割中的優勢。最後,基於排列組合熵和灰度特徵,結合模糊 一均值聚類演算法對影象紋理進行...

基於專家聚類賦權的PIS能力評價指標模型構建

基於專家聚類賦權的pis能力評價指標模型構建作者 李豔李秀霞 現代情報 2014年第02期 摘要 分析了影響pis personalized information service 的影響因素,給出了pis能力的評價指標體系,由於評價指標存在一定的模糊性和不確定性,提出了一種融合專家主觀和客觀賦權的...