文字分類入門 二 文字分類的方法

2022-04-05 07:56:28 字數 1085 閱讀 2024

文字分類問題與其它分類問題沒有本質上的區別,其方法可以歸結為根據待分類資料的某些特徵來進行匹配,當然完全的匹配是不太可能的,因此必須(根據某種評價標準)選擇最優的匹配結果,從而完成分類。

因此核心的問題便轉化為用哪些特徵表示乙個文字才能保證有效和快速的分類(注意這兩方面的需求往往是互相矛盾的)。因此自有文字分類系統的那天起,就一直是對特徵的不同選擇主導著方法派別的不同。

最早的詞匹配法僅僅根據文件中是否出現了與類名相同的詞(頂多再加入同義詞的處理)來判斷文件是否屬於某個類別。很顯然,這種過於簡單的方法無法帶來良好的分類效果。

後來興起過一段時間的知識工程的方法則借助於專業人員的幫助,為每個類別定義大量的推理規則,如果一篇文件能滿足這些推理規則,則可以判定屬於該類別。這裡與特定規則的匹配程度成為了文字的特徵。由於在系統中加入了人為判斷的因素,準確度比詞匹配法大為提高。

但這種方法的缺點仍然明顯,例如分類的質量嚴重依賴於這些規則的好壞,也就是依賴於制定規則的「人」的好壞;再比如制定規則的人都是專家級別,人力成本大幅上公升常常令人難以承受;而知識工程最致命的弱點是完全不具備可推廣性,乙個針對金融領域構建的分類系統,如果要擴充到醫療或社會保險等相關領域,則除了完全推倒重來以外沒有其他辦法,常常造成巨大的知識和資金浪費。

後來人們意識到,究竟依據什麼特徵來判斷文字應當隸屬的類別這個問題,就連人類自己都不太回答得清楚,有太多所謂「只可意會,不能言傳」的東西在裡面。人類的判斷大多依據經驗以及直覺,因此自然而然的會有人想到何讓機器像人類一樣自己來通過對大量同類文件的觀察來自己總結經驗,作為今後分類的依據。

這便是統計學習方法的基本思想(也有人把這一大類方法稱為機器學習,兩種叫法只是涵蓋範圍大小有些區別,均無不妥)。

統計學習方法需要一批由人工進行了準確分類的文件作為學習的材料(稱為訓練集,注意由人分類一批文件比從這些文件中總結出準確的規則成本要低得多),計算機從這些文件重挖掘出一些能夠有效分類的規則,這個過程被形象的稱為訓練,而總結出的規則集合常常被稱為分類器。訓練完成之後,需要對計算機從來沒有見過的文件進行分類時,便使用這些分類器來進行。

現如今,統計學習方法已經成為了文字分類領域絕對的主流。主要的原因在於其中的很多技術擁有堅實的理論基礎(相比之下,知識工程方法中專家的主觀因素居多),存在明確的評價標準,以及實際表現良好。

英文文字分詞

1.根據理論課所講的資訊檢索的主要思想好關鍵技術來進行實驗測試,以培養在資訊檢索相關領域的知識運用能力。2.主要理解文件的分詞過程,和其中關鍵技術 1 實驗內容 讀取文件並分詞。要求給定一篇.txt英文文件,計算機讀入並統計該篇文章由哪些詞組成,按字母順序輸出出現過的詞以及每個詞的出現頻率。2 實驗...

成本分析報告格式文字

分析報告 一 專案總體盈虧情況分析。1 專案盈虧資料表 單位 萬元 保留兩位小數 2 專案主要盈利點分析 2.1主要盈利點分析 本期開累 2.2 盈利源於 較高或變更創效等原因分析,採取了哪些措施,取得了哪些成果 2.3 下一階段擴大成果的思路 目標 措施與方法,落實的部門或責任人 3 專案主要虧損...

企業人工成本分類管控研究

作者 孫偉 電子世界 2012年第14期 摘要 隨著現代企業制度的建立和完善,人力資源越來越成為企業最重要的資源,企業在人力資源管理方面的投入日益增加。因此,人工成本也越來越成為企業經營成本的重要組成部分。如何進行人工成本控制,提高人力資源利用效率成為企業擴大利潤的途徑之一。本文通過剖析人工成本構成...