網路資訊挖掘系統評價初探

2023-01-15 09:51:03 字數 5541 閱讀 5117

【正文】

隨著電子商務的蓬勃興起,許多企業已經開始意識到其所擁有的豐富的資訊資源在商業決策中具有潛在的巨大商業價值。

更好的決策支援需求和企業電子商務的開展正推動著網路資訊挖掘系統的研究與開發。

鑑於網路資訊挖掘是在資料探勘的基礎上發展起來的,因此對於網路資訊挖掘系統的基本問題,本文仍將利用資料探勘系統的基本理論來描述。

目前,由於網路資訊挖掘系統的發展正在起步階段,因此它的分類還無法達到資料探勘系統分類那樣細緻。

具體而言,對網路資訊挖掘系統分類可以從商業能力、挖掘資料型別、挖掘功能、資料分析方法和應用領域角度進行。

其中商業能力角度的分類與資料探勘系統的商業能力分類完全相同,即分為商業產品和研究原型。

而從另外幾個角度看,網路資訊挖掘系統的型別具有自身一些特點,例如從應用領域角度看,網路資訊挖掘系統可以分為面向電子商務型、面向遠端教育型、面向旅遊型、面向廣告業型等。

隨著網路資訊挖掘技術的進一步發展,將出現更加豐富的網路資訊挖掘系統型別。

1  系統評價現狀調查

據調查,目前國內外還沒有出現完全針對網路資訊挖掘系統的評價成果,因而對網路資訊挖掘系統的評價具有一定的創新性。

筆者認為,對網路資訊挖掘系統的評價可以充分地借鑑資料探勘系統的評價方法。

應該說這兩類系統在很多評價指標上都有重合。

從國外來講,2023年前後已經有一些研究人員和機構對資料探勘系統進行了一定的評價研究。

他們所採用的評價體系各有特點,以下是一些簡要介紹。

1等人主要對17種資料探勘系統進行了評價[1],其中包括了著名的、系統。

這些系統具有以下共同的特點單平台、多用途、支援多種模式和分類演算法,並支援模式構建中的專案階段。

他們主要從6大方面對這些系統進行比較,除此之外,他們還單獨從使用者端角度對資料探勘系統效能進行評價。

他們認為並非支援的演算法越多越好,各種演算法面對不同的問題其解決能力也是不同的,它們具有自身的優點與缺點。

在文章的最後,還對這17種產品的優勢劣勢作了總體的描述性評價。

2等人針對14種桌面型資料探勘系統[2],重點對各個系統的特徵和效能進行比較。

他們選用了20個評價指標,並設計了乙個標準的評價過程——6分制評分標準來評價各種軟體工具的優點和缺點。

他們評價的特色在於針對4種演算法的產品分別評價,並採用4類資料集測試系統的效能。

他們認為網路法要比分割法更精確,另外也提出可以加入計算機環境、資料庫連線性、提供商的穩定性等指標進一步評價。

3等人主要針對高階型-用於欺詐甄別的資料探勘系統進行了評價[3]。

儘管僅選擇了5個系統、、、-、進行評價,但是他們針對這5個專門應用於欺詐甄別的系統進行了細緻的比較。

4等人將資料庫中知識發現與資料探勘結合到一起評價[4]。

他們在介紹一般知識發現任務以及解決這些任務的方法基礎上,主要調查了43種提供這類功能的軟體工具。

這些工具既包括研究的原型系統,也包括已經商業化的產品。

其中有較為著名的、、系統。

他們採用了乙個系統特徵分類體系對上述產品進行比較,並提出一些尚待解決的問題如不同技術的整合、可擴充套件性、與資料庫的無縫整合、對正在變化中的資料進行管理以及非標準的資料型別等問題。

5博士沒有針對個別的資料探勘系統具體評價,但他認為評價乙個資料探勘系統應包括如下幾個方面[5]資料型別、系統問題、資料來源、資料控制的功能與方法、資料探勘系統和資料庫或資料倉儲系統的結合、可伸縮性、視覺化工具、資料探勘查詢語言和圖形使用者介面。

6等認為資料探勘軟體產品因為不同的目標使用者和不同型別的解決問題而具有不同的重點[6]。

主要可以分為目標解決方案、商業工具、商業分析工具、研究分析工具4類。

另外,從目前整個資料探勘市場看也可以分成3個主要組成部分通用的工具、綜合資料探勘工具和快速成長的面向特定應用的工具。

他們還進一步提供了一套專門用於資料探勘工具評價的屬性和方法,對11種具體的工具進行了評價,其中包括、等著名的工具。

從國內來看,資料探勘系統的評價研究不如國外活躍,這與資料探勘系統在國內的應用仍處於初步階段有直接關係。

目前這方面的研究狀況如下。

朱愛群提出了一種高階記分卡系統[7],採用該記分系統有助於商業使用者更好地比較不同的資料探勘技術,並以此作出正確的選擇。

該系統共有3種不同的記分卡商業記分卡、演算法記分卡、應用記分卡。

從上述文獻的調查看,國內外資料探勘系統評價普遍具有的特點是

1重視系統演算法能力的評價。

在7個調查物件中,其中6個都明確採用了演算法評價指標,特別是、、朱愛群等人,對演算法指標的分析尤為細緻。

2突出或者具有從商業能力角度的評價。

朱愛群和都明確提出採用商業能力指標,而其他研究者提供的從使用者端角度對系統易用性的評價實際上可以作為系統商業能力評價的一部分。

3缺少對資料探勘流程的評價。

資料準備、資料預處理、資料建模、模型評估、模型應用等一系列步驟是幾乎每個資料探勘系統所必須經歷的,往往各種系統在每個階段表現的能力各有不同,因此有必要對過程中的每個階段進行評價。

4缺少從應用能力角度的評價。

從所有的調查物件中看,僅有國內的乙個評價提到了應用評價,而且其具體的指標並不是直接針對如保險業、零售業、電子商務等實際應用領域的。

由此可見,本文所要進行的網路資訊挖掘系統的評價應當積極吸取已有資料探勘系統評價的優點,同時結合網路資訊挖掘的特點來彌補評價中的不足。

2  評價系統的選擇

由於目前許多資料探勘系統也同時提供網路資訊挖掘功能,因此本文所要評價的網路資訊挖掘系統,一方面從一些著名的資料探勘系統中選擇,一方面將參考-上有關網路資訊挖掘軟體的最新統計報道。

從文獻調查看[8],、、、、、等被超過50%的團體或個人選用作為資料探勘評價系統。

從2001對資料探勘工具利用情況的調查看,位於前5位的工具依次為18%、-16%、12%、11%、6%。

通過進一步調查關於網路資訊挖掘的報道[9],可以發現它所提供的19種網路資訊挖掘軟體工具是目前這個領域比較全面和權威的。

因此,本文決定對這19種網路資訊挖掘軟體工具展開調查見表1。

表1商業能力評價產品成熟度和提供商實力

附圖注採用7分制評分,各個數字代表的含義分別是1—優秀;2—好;3—一般;4—還可以;5—較差;6—沒有;7—有,但無法評價。

從上述調查可以發現,比較熟悉的資料探勘系統的提供商諸如公司、公司在網路資訊挖掘市場上仍然比較活躍,特別是公司,它目前擁有和兩種網路資訊挖掘軟體產品。

3  評價指標與方法

通過對資料探勘系統評價方法的調查,了解到目前還沒有針對網路資訊挖掘系統評價報告公布出來。

因此,本文在借鑑多種資料探勘系統評價方法的基礎上,提出從商業能力、演算法能力、網路資訊挖掘過程能力、電子商務應用能力這4個角度來評價網路資訊挖掘系統的綜合能力,以期為網路資訊挖掘系統的選擇提供一定的參考。

31商業能力

這個指標又具體通過下面3個子指標體現

1產品的成熟度和提供商的實力。

這個指標可以體現網路資訊挖掘軟體產品是否成熟及它的提供商具備的實力的大小。

通常可以從產品推出時間、更新頻率、公司創立時間、擁有客戶數量、客戶涉及領域等多個方面綜合考慮。

2易用性。

這個指標主要從使用者端角度來考慮的,又可以分為如下4個子指標①挖掘過程的清晰度;②無技術術語;③熟悉的環境;④視覺化的報告。

3投資回報率,。

這個指標通常被認為是乙個主觀性很強、不易衡量的指標,因為對它的評價很大程度上依賴於開展的個別專案以及挖掘專家的專業知識和技能。

然而它仍不失為衡量網路資訊挖掘系統商業能力的重要指標之一。

在電子商務環境下,網路可以使投資回報率的評測較易實現,結果更為客觀。

這個指標的評價,一方面可以通過各個網路資訊挖掘軟體的新聞報道進行分析,另一方面如果可以獲得網路資訊挖掘軟體提供商或領域專家的客觀評價則更好。

32演算法能力

演算法能力指標用於評價在系統挖掘網路資訊過程中某種演算法的有效性。

該指標下目前僅列出了8個子指標,即8種演算法①決策樹;②神經網路;③回歸;④;⑤最近鄰;⑥和自組織圖-;⑦聚類;⑧關聯規則。

由於新的挖掘演算法不斷出現,可能這裡列出的演算法不完整,在具體評價時可新增。

33網路資訊挖掘過程能力

這個角度的評價是以往的資料探勘系統評價所缺乏的,因此本文所提出的網路資訊挖掘系統的評價體系中特別加入這個指標。

它主要被用來評價網路資訊挖掘系統在網路資訊挖掘過程的各個階段所表現的能力。

具體分為如下5個子指標①商業問題理解;②資料準備資料選擇,資料預處理,資料轉換;③網路資訊挖掘模型;④模型評價;⑤模型應用。

一般的網路資訊挖掘系統都遵循這樣的5個基本階段。

當然有些系統可能也有略微的差別,如60的挖掘過程重點就是在前3個階段。

34電子商務應用能力

應用能力角度的評價也是資料探勘系統評價中所忽視的,同時由於網路資訊挖掘在電子商務方面的應用點在不斷增多,本文特別設定從電子商務應用能力角度評價的指標。

根據目前掌握的應用情況,又具體分為如下5個子指標①站點布局設計;②交叉銷售;③**-;④個性化推薦;⑤早期預警。

如果新的應用層面出現,可以考慮添入新的子指標。

4  初步評價分析

目前,筆者僅根據在網上可獲取的資訊來對各種系統的相應屬性進行評價。

目前可以得到的結果如下。

1網路資訊挖掘軟體與資料探勘軟體的關聯。

本文調查的網路資訊挖掘軟體的提供商中一些是比較熟知的提供資料探勘軟體的公司,如網路資訊挖掘應用模板的提供者就是公司,該模板是該公司的應用模板之一。

又如-的提供者是公司。

可見,越來越多的資料探勘軟體公司將目光投入到網路資訊挖掘及其應用中。

當然這個充滿前景的領域也吸引了眾多新的擁有網路資訊挖掘先進技術的小公司的加盟。

2產品的成熟度和提供商的實力比較。

通過對這19種軟體產品的成熟度和提供商的實力進行評價,發現大概有13的網路資訊挖掘軟體的商業能力超過了普通水平見圖1。

原來資料探勘系統領域的領先者,像公司和公司,在網路資訊挖掘系統領域仍然保持很強的商業能力。

當然,本文的評價中還有的商業能力也獲得了較好的評價。

調查中大概有一半的軟體產品的商業能力處於普通水平之下。

另外表1中和60仍為研究原型系統,故本次調查暫不對其商業能力進行評價。

附圖圖1商業能力評價產品成熟度和提供商實力

當然;由於筆者主要通過**調查,對資訊的理解往往帶有個人主觀色彩,在評價結果中不可避免存在偏差。

5  未來工作

筆者認為此類評價工作應該將專家調查和二手資訊收集相結合。

可以利用專家調查法獲得較為科學的指標權重,進一步完善本文所建立的網路資訊挖掘系統的評價指標體系。

另外可以嘗試利用現有的資料集進行一些可能的測試工作,如網路資訊挖掘準確度的定量評價。

綜上所述,網路資訊挖掘發展方興未艾。

從國內外現狀看,網路資訊挖掘系統評價工作也僅處於起步階段。

希望本文所提出的網路資訊挖掘系統評價體系和初步的評價結果對國內進一步開展這方面的研究有所裨益。

【參考文獻】

1  ,&,1998

2  ,,,1998,,,,1998

3  ,,-1998,,,1998

4  ,,19996

5  資料探勘概念與技術北京機械工業出版社,2001

6  ,,構建面向的資料探勘應用賀奇等譯北京人民郵電出版社,2001

7  朱愛群客戶關係管理與資料探勘北京中國財政經濟出版社,2001

8  __2001_9

網路教學評價要素初探

作者 郭彥青王曉玲尹霞王治國 中國校外教育 理論 2008年第03期 摘要 網路教學評價的目的是有效地督促學生自學,發展學生各方面的能力。因此,明確網路教學的評價要素以及如何實現評價,對網路教學地不斷完善有著突出的作用。本文將課堂教學評價四要素 學生 教師 教學內容和 擬和為網路教學評價兩大要素 學...

高中資訊科技教學評價初探

作者 楊明恆 現代教育科學 中學教師 2009年第03期 為貫徹落實國家 基礎教育課程改革綱要 試行 的精神,根據 普通高中資訊科技課程標準 實驗 要實現提高學生的資訊素養 促進學生全面而又富有個性的發展,著力發展學生以資訊的獲取 加工 管理 表達與交流為基礎的資訊科技實踐能力,努力培養學生的創新精...

網路資訊教學評價的運用

作者 黃鶯 矽谷 2009年第21期 摘要 計算機網路教學的評價系統已越來越發揮巨大的作用,也正在被廣大職教計算機類作為必修科目進行教學。計算機網路教學評價系統能夠以資訊科技為指導,利用計算機的資料交換和函式計算的執行模式,來實現快速的評價執行體系。計算機網路資訊的教學評價能夠進一步改變教學評價模式...