天網搜尋引擎

技術報告

國際互連網（internet）這乙個全球性的計算機網路在九十年代得到了迅速的發展，連入的主機數以幾乎每年翻一翻的速度增長，並已將它的影響擴大到資訊化社會的各個角落。internet上豐富的資訊資源和便捷的通訊手段是其吸引使用者的主要因素。www（world wide web)是目前internet上使用最廣泛的資訊服務之一。

它利用超文字制標語言html(hypertext markup language)描述超文字和超**資訊，將分布在網路中各個節點上的文字、聲音、圖形、圖象、**等多**資訊有機地聯絡和組織起來，使用者可用友好、方便、多樣的介面訪問資訊，因而在internet上得到了迅速的發展，已成為人們發布和共享資訊的重要工具。除此之外，internet上還提供news, email, ftp, telnet, gopher等多種服務。

www資訊量的增加，給人們帶來乙個新的問題，即如何在龐大的ｗｗｗ資訊網內找到自己所需要的資訊．解決這個問題的途徑是建立www搜尋引擎，即用一定方法發現www資訊，生成ｗｗｗ資源索引，並為使用者提供檢索和查詢服務．ｗｗｗ搜尋擎已成為人們爭相研究開發的熱點．近年來，國外已先後有一些此類系統（例如yahoo！，alt**ista，hotbot,metacrawler等）在internet上執行．在我國，由於資訊網路的頻寬較窄、中文資訊佔較大比例、大部分使用者習慣使用中文、對中文檢索需求很大等原因，使得這些搜尋引擎不能完全滿足使用者的需要．在這種情況下，我們設計開發了乙個大型、高效的分布式中英文資訊發現和資源索引檢索服務系統—「天網(webgather)」中英文搜尋引擎，取得了很好的效果．

一、系統結構

本系統主要由www資訊訪問和分析子系統、www資訊收集控制子系統

、news收集分析子系統、資源索引資料庫、資訊檢索子系統、管理和監控子系統等幾個部分組成。各個部分的功能如下：

1、www資訊訪問和分析子系統

根據www資訊收集控制子系統提供的url和相關資訊，使用http協議，在internet上獲取相關資源，並能就對方主機返回的不同狀態碼作出相應處理。對取回的web頁面(主要是html格式)進行分析，自動對中文編碼進行識別和轉化，對中文資訊進行分詞、提取頁面的標題、關鍵詞、摘要以及其中的超鏈（hyperlink）。將分析的結果通過擴充套件soif介面提交給資訊收集控制子系統。

2、www資訊收集控制子系統

根據配置檔案運用自然語言理解和知識獲取技術、引導資訊收集系統優先訪問特定知識領域和特定地域範圍內的資訊，向html訪問分析程序傳送需訪問的url及相關資訊，接收其發回的訪問和分析結果。將相應的資料存入資訊資料庫中。並對資訊收集的頻度和流量加以控制。

3、news收集分析子系統

使用nntp協議訪問news server，收集所關心的newsgroup（在配置檔案裡配置）中的文章。並進行分析，提取文章的摘要、標題、關鍵詞。將這些資訊存入資訊資料庫中。

4、資源索引資料庫

儲存收集到的www和news資訊，以及分析的結果。並對其重新進行基於詞的分級優化索引，以加快查詢速度．

5、資訊檢索子系統

提供基於www方式的資訊檢索服務。使用者通過任何標準的www瀏覽器直接訪問。檢索系統可以支援在一次檢索中使用多個檢索詞(中、英文），並支援檢索詞之間的邏輯關係（與、或）。

還可以指定查詢的範圍：www、news，和方式（精確、模糊）。檢索結果以html形式返回給使用者。

各項結果的標題與它所對應的url用超鏈連線起來。使用者只需在瀏覽器中點中檢索結果項的標題，就能馬上取得相應頁面的實際內容。命中的url頁面按它與使用者檢索關鍵詞的關聯程度排序，使使用者的檢索更有效率。

本系統還支援在上一次返回的結果中進行查詢。

6、管理和監控子系統

提供系統配置，啟動、停止、監控、統計等管理功能。

資訊收集控制子系統與www訪問分析程序以及news訪問分析子系統之間的資訊互動是通過tcp socket連線來實現的，因此各子系統可以分布執行於網路中不同的主機上。

二、技術特徵

本系統有以下技術特徵：

1、資訊收集符合internet的相關協議和標準。

因為本系統收集的主要是internet上的資訊，所以在設計開發時把對有關協議和標準的支援作為乙個重要的目標。主要包括：

（1）http協議

http為www所使用的超文字資訊傳輸協議。目前使用的主要有1.0和1.

1版本。本系統在實現中可以通過與www server的協商判斷其所支援的http協議版本，並自動選用相應版本的協議進行訪問。因而做到了較好的相容性和適應性。

（2）mime

www的超**資訊在傳輸過程中使用mime進行資訊的表示和封裝。本系統可以自動識別和處理mime格式的資訊。

（3）html語言

html為www所使用的超文字制標語言，是國際標準iso8879:1986 sgml（standard generalized markup language）的乙個應用。sgml 是一種定義結構化標準語言的語言。

html就是用sgml定義的一種非專利性質的hypertext的標註語言。html語言的版本從最初的1.0、2.

0一直發展到3.2。最近又推出html 4.

0（97年12月）。本系統遵循html 3.2標準，並對netscape和microsoft使用的一些擴充套件tag提供支援。

（4）www robots 標準

本系統在進行www資訊的自動收集時，實際上使用的是www 機械人方式．然而出於某些原因，一些www 伺服器的管理員或擁有者不希望他們的資訊被www機械人訪問．robot exclusion標準提出了一種方法來滿足這種需要．它規定在www 伺服器的「/robots．txt」檔案可以限制www機械人對該www伺服器的訪問，並定義了這個檔案的格式和含義．此標準無強制性，由www機械人自願遵守．本系統在實現中遵循了這一標準．

（5）nntp協議

nntp是網路新聞傳輸協議。該協議規定了一套利用可靠的、流式傳輸來在internet上傳送和閱讀新聞的方法。本系統在訪問和收集news資訊時完全遵守這一協議。

2、實用、高效的資訊分析方法

internet上的web資訊主要是使用html語言書寫的web頁面。為了對這些資訊進行識別和監控，首先必須對它們加以分析，提取其摘要和關鍵詞。由於網路上的資訊非常豐富，內容多種多樣，沒有統一的規範和組織，因而準確、有效地分析這些資訊十分困難。

本系統主要根據html中不同的tag區分頁面中各個部分資訊內容在文章中的重要性和所處的位置，並結合使用中文分詞、詞頻統計和一定的自然語言理解技術，智慧型化地提取該頁面的關鍵詞和摘要。另外，因為這些資訊十分不規範，存在很多的字詞和語法結構錯誤，本系統在分析器的設計上針對這一點專門考慮了各種意外和錯誤處理，盡量忽略和容忍文件中的這些錯誤。經過系統執行中對網上幾十萬頁面資訊分析的考驗，本系統所使用的資訊分析方法是較為實用和高效的，基本上能滿足使用者的需要。

3、高度智慧型性和適應性的資訊發現方法

我們在本系統中主要使用程式方式自動收集www資訊，即www機械人方式。在該方式中，有乙個能自動在www網中獲取資訊並進行漫遊的程式根據html文件中的超鏈，自動收集和索引www資訊．這種方式速度快、基本不需人工干預。

我們對www資訊的收集是從乙個可配置的起始的url集合出發，根據這些url指向的html頁面中的超鏈來不斷發現和訪問新的url。使用者也可在系統的執行過程中不斷加入自己感興趣的url。

在本系統中，我們採用了一種獨特的「加權的啟發式搜尋演算法」控制www資訊資源的收集。管理員可對系統進行靈活的配製，運用自然語言理解和知識獲取技術、引導資訊收集系統優先訪問特定知識領域和特定地域範圍內的資訊，並對資訊收集的頻度和流量加以限制，以便在盡可能少的占用網路資源的情況下，取得使用者較為滿意的效果。演算法的主要思想如下：

(1)管理員可配置一些與特定領域相關的導向詞及其權值，引導收集系統根據分析的結果優先訪問與該領域相關的www資訊．

(2)管理員可配置一些應特別關注的敏感詞，凡是出現這些敏感詞的頁面及這些頁面中的超鏈所指向的頁面都以最高優先權被訪問。這些頁面記錄在專門的資料庫中。

(3)管理員可為在不同域（domain）中的www伺服器配置權值，控制訪問的www伺服器的範圍．如提高「．cn」域的權值可將大部分的訪問控制在國內．

(4)使用啟發式函式計算url的權值．乙個已訪問過的url的權值是根據下列因素來計算的：

．導向詞在文件**現的加權頻率

．該url被其它url引用的次數

乙個未訪問的url的**權值根據以下因素來計算：

．該url所在的域

．該url被其他url引用的次數

．引用該url的url的權值

(5)在待訪問url中選擇乙個**權值最高的url進行訪問．

另外，本系統還可對news資訊自動進行收集，並能識別出不同資訊源之間的相互引用（如www與news)，使其資訊得到充分利用。

4、中文資訊處理技術

處理中文資訊首先需要能自動對中文資訊進行識別，即判斷一篇文章中是否包含中文資訊。internet是乙個全球性網路，上面的中文資訊使用多種編碼．本系統主要支援最為常用的gb（大陸、新加坡）、big5（台灣、港澳）、hz（海外）三種中文編碼．本系統可以自動識別這些中文編碼，並統一將所有中文資訊轉換成gb編碼，以進行進一步的分析和處理。

中文資訊處理與英文存在很大不同，這是因為中文資訊處理具有很多自己的特點，例如漢語缺乏嚴格意義上的形態標誌和形態變化；現代漢語中由兩個及兩個以上的漢字組成的合成詞佔優勢；詞的同形異類(多類詞)現象十分普遍；漢語資訊是按句連寫；漢語句子中語序靈活等。上述特點使中文資訊的詞語切分(切詞)成為漢語資訊處理的第一道關口，也是建立中文資訊發現和檢索系統的關鍵性技術之一。我們使用以帶詞類標記的詞典為基礎、以切詞與標註相結合的方法處理中文資訊，較好地解決了漢語的切詞問題。

天網搜尋引擎

搜尋引擎優化

使用搜尋引擎

搜尋引擎工作原理

天網搜尋引擎

搜尋引擎優化

使用搜尋引擎

搜尋引擎工作原理

相關推薦