英文文字分詞

2022-10-24 18:39:02 字數 1523 閱讀 6269

1. 根據理論課所講的資訊檢索的主要思想好關鍵技術來進行實驗測試,以培養在資訊檢索相關領域的知識運用能力。

2. 主要理解文件的分詞過程,和其中關鍵技術

1、 實驗內容:

讀取文件並分詞。要求給定一篇.txt英文文件,計算機讀入並統計該篇文章由哪些詞組成,按字母順序輸出出現過的詞以及每個詞的出現頻率。

2、 實驗步驟:

1. 預習老師所給的參考資料

2. 理解分析實驗內容的關鍵步驟

3. 寫**並除錯;

實驗思路:統計一篇給定的英文文章中各個單詞出現的次數並按照字母順序排列。因為要存放兩個變數,用 treemap 來存放資料, key 是要統計的單詞,value 是單詞出現的次數。

在分詞的過程中使用的是stringtokenizer方法。最後再按照 key 的公升序排列出來。

具體**和注釋:

import

import

public class fenci 方法的返回值是value(整型類,如果不是空值,那麼value加一,然後將此時的key=單詞,value=詞頻,寫入treemap中。

else

//按照單詞的字母次序輸出。

set entryset =

iterator iterator =

while (

}}實驗結果:

● 採用的文件:

my father was a self-taught mandolin player. he was one of the best string instrument players in our town. he could not read music, but if he heard a tune a few times, he could play it.

when he was younger, he was a member of a small country music

● 詞頻統計結果:

● a=5

● best=1

● but=1

● could=2

● country=1

● father=1

● few=1

● he=6

● heard=1

● if=1

● in=1

● instrument=1

● it=1

● mandolin=1

● member=1

● music=2

● not=1

● of=2

● one=1

● our=1

● play=1

● player=1

● players=1

● read=1

● self-taught=1

● small=1

● string=1

● the=1

● times=1

● town=1

● tune=1

● was=4

● when=1

● younger=1

生而為贏美文英文文字及中文翻譯

生而為贏翻譯 第一篇 青春 青春不是年華,而是心境 青春不是桃面 丹唇 柔膝,而是深沉的意志,恢巨集的想象,炙熱的戀情 青春是生命的深泉在湧流。青春氣貫長虹,勇銳蓋過怯弱,進取壓倒苟安。如此銳氣,二十後生而有之,六旬男子則更多見。年歲有加,並非垂老,理想丟棄,方墮暮年。歲月悠悠,衰微隻及肌膚 熱忱拋...

文字分類入門 二 文字分類的方法

文字分類問題與其它分類問題沒有本質上的區別,其方法可以歸結為根據待分類資料的某些特徵來進行匹配,當然完全的匹配是不太可能的,因此必須 根據某種評價標準 選擇最優的匹配結果,從而完成分類。因此核心的問題便轉化為用哪些特徵表示乙個文字才能保證有效和快速的分類 注意這兩方面的需求往往是互相矛盾的 因此自有...

閱讀英文文章的技巧

二 不良的閱讀習慣 1 音讀 出聲閱讀的主要弊病就是使閱讀速度和效率受說話速度的限制。因為,正常默讀速度幾乎要比出聲朗讀的速度快兩倍以上。嘴唇的活動無疑會影響眼睛的掃視速度,乙個有效率的讀者能夠只要看到印刷符號,就直接獲得意思,而不經過聲音階段。因此,要克服這種不良的閱讀習慣,就要訓練自己養成通過視...