基於XML的Web資料探勘及應用模式研究

2022-10-14 13:12:02 字數 969 閱讀 2589

摘要:本文分析了web網頁的資料探勘最新技術及發展方向,介紹了基於xml的web資料探勘的特點,提出了基於xml的資料抽取技術,最終得到所需的資料並通過乙個通用的應用模式進行挖掘的全過程。

關鍵詞:資料探勘 web挖掘 xml

web技術的飛速發展,在促使人們資訊交流的方式變的更加方便快捷的同時,也積累了大量的資料,如何發現並利用隱藏在這些資料背後的知識就成為當前資訊科技領域研究的熱點問題之一。web資料探勘就是能夠滿足這一要求的一種技術,即從web上的海量資料中提取對人們有用資訊並為人們所利用。然而web上的資料不同於傳統資料庫中的結構化資料,web上的資料大多是一種無結構或半結構化的資料。

如何有效的對web資料進行清理和整合是web資料探勘領域中乙個很重要的研究課題。

目前web挖掘的應用存在著兩個重要的困難。首先,現有的應用模式大多缺乏通用性。往往只能根據現實的情況設計、定製針對性的解決方案,而難以由使用者自己運用成形的軟體模組,設定資料引數以解決問題。

其次,資料的預處理和後處理工作一直是困擾挖掘應用的乙個難題。資料結構的複雜性以及異質系統之間的資料耦合問題得不到妥善的解決,使得挖掘應用難以順利展開。上述問題的主要原因在於現有的應用模式未能有效地對挖掘演算法進行有效地封裝,因而便無法有效地實現通用的資料表達和介面規範。

本文將詳細討論在web環境下,如何對無結構或半結構化的web資料進行資料整合的問題,並提出了一種基於xml的挖掘應用模式。該模式充分利用了xml在資料描述能力、異質系統資料交換能力以及可擴充套件性方面的優勢,為解決上述問題提供乙個框架。

1 基於xml技術進行資料探勘

xml是一種中介標示語言(meta-markup language),提供資料的結構和語義資訊,使計算機和伺服器能及時處理多種形式的資訊。運用xml的擴充套件功能不僅能從web伺服器**大量的資訊,還能大大減少網路業務量。它以一種開放的自我描述方式定義了資料結構,在描述資料內容的同時能突出對結構的描述,從而體現出資料之間的關係。

這樣所組織的資料對於應用程式和使用者都是友好的、可操作的。

基於聚類的Web日誌挖掘方法探析

電孑商務 基手 關鍵詞 聚類 一的 志掘方法析 顧黎萍 常州工學院 姜靈敏廣東外語外貿大學 摘要 本文針對國內中小型電子商務 伺服器資料較少的特點以及資料的物理意義,採用了一種將資料匯入 資料庫並利用連環聚類的方法來處理 資料的方法,為中小型電子商務 的決策分析提供了一種較為簡單的方法。日誌挖掘電子...

基於XML資料庫的安全查詢處理

摘要首先對現有的xml索引的不同方法進行綜述,介紹xml索引中的相關概念,闡述典型的xml索引的構建方法和主要技術,分析現有索引的特點和存在的問題,展望xml索引未來的發展方向及其面臨的挑戰。關鍵詞xml索引 特點 發展方向 xml是extensible markup language的縮寫,即可擴...

基於資料探勘的學生成績查詢系統

作者 何云峰 電腦知識與技術 2013年第01期 摘要 開發基於的學生成績挖掘系統。一方面使學校教學資源得到優化,減輕教師對於學生成績查詢的工作量。另一方面,通過資料探勘技術進行系統開發,使大量的資料能得到有效利用。挖掘出的隱藏規則對學校各方面工作的指導以及學生的培養有著重要意義。關鍵詞 學生成績查...