基於規則的中文人名識別與抽取關鍵技術研究

2022-05-24 06:48:04 字數 989 閱讀 1486

摘要:新興**時代的發展使大量的資訊湧入了我們的視線和大腦,廣大網名使用者在面對網上的資訊時需要找尋符合自己的資料,在這種情況下,資訊抽取發展起來了。國內的資訊抽取技術起步時間較短,又由於中文資訊的複雜性,所以在中文資訊抽取領域,此技術還不是特別的成熟。

在本文中,作者對基於規則的中文人名抽取技術進行了初步探索和研究。

關鍵詞:自然語言處理,資訊抽取,命名實體識別,人名識別

1 有關背景

資訊時代的發展,我們每天都會面臨大量的資訊,不同的使用者接觸的資訊雖然不同,但使用者都需要從這些大量的資訊中抽取出自己感興趣和有實際用途的資訊,資訊抽取技術在這種情況下慢慢地發展了起來。目前,資訊抽取的主要任務是將文字中大量的資訊準確地進行分詞、識別、整理,提取出人和事的關鍵特徵詞,組織成關鍵語句,方便於查詢檢索,提高檢索效率。在網際網路時代,資訊抽取技術是資訊檢索技術的技術支撐,它既可以提高檢索效率,又能準確的抓取面對使用者有用的資訊。

例如,資訊抽取系統可以從使用者感興趣的資訊中分詞抽取出時間、地點、關鍵人物、原因等,將抽取結果儲存在資料庫中,為使用者進一步查詢和分析提供支援和幫助。 資訊抽取的關鍵任務包括:命名實體識別、句法分析、篇章分析與推理、知識獲取等。

本文主要對基於規則的中文人名識別與抽取技術進行了研究和實現。

2 資訊抽取的研究方式

目前,資訊抽取主流的研究方式主要有三種:基於規則的、基於統計的和基於規則和統計相結合的方式。

2.1 基於規則的抽取方式

基於規則的資訊抽取是乙個基於學習經驗和應用的兩個階段過程:規則的確定和應用確定的規則獲取使用者所需要的資訊。資訊的抽取的規則是建立在大量的學習經驗和既定的某一領域實現的,在經驗學習的基礎上,確定漢語的語言結構和常用文法結構,例如「名詞」+「動詞」,「主語」+「謂語」等形式,在這些規則確立之後,將儲存在資訊庫中以備匹配。

在語句經過分詞後,將這分詞後的結構語句和資訊庫中的規則相匹配,確定分詞後的語句結構,再經過句法分析、篇章分析、知識獲取之後,抽取出語句中的有用資訊,抽取的任務就完成了。所以,基於的規則資訊抽取,規則本身的正確與否是提取成功的關鍵。

參考文獻期刊及英文人名的縮寫規則

5 壓縮字母法 僅個別單詞採用壓縮字母方式縮寫,如japanese縮寫為jpn而不是jan,national應縮寫為natl而不是nat等。經常有讀者將japanese寫成jan是參考文獻著錄中常見的錯誤。如japanese journal of ophthalmology,應縮寫為jpn j op...

基於射頻識別技術的考勤系統

目錄摘要i目錄ii 第一章 rfid的介紹1 1.1 rfid技術特點2 1.2 rfid系統的組成3 1.3 電子標籤的內部結構4 1.3.1 閱讀器4 1.3.2 天線5 1.3.3 中介軟體6 1.4 rfid系統工作原理7 1.5 rfid與其他自動識別技術8 1.5.1條形碼技術8 1.5...

基於dft的訊號識別系統

基於dft的訊號識別系統 一 實驗目的 1 通過實驗鞏固離散傅利葉變換dft的認識和理解。2 熟練掌握應用dft進行頻譜分析的方法。3 理解dft離散頻譜分析的應用價值。二 實驗內容 在語音識別 雷達訊號處理 生物醫學訊號檢測與識別等應用領域廣泛使用基於離散傅利葉變換的譜分析技術。乙個典型的訊號識別...