搜尋引擎開發過程中的相關問題的總結

2021-11-06 23:56:31 字數 1990 閱讀 4470

1、 11月中旬開始接觸cat開發,首先是完成了myeclipse和資料庫的安裝工作,看了ajax+lucene構建索引的電子版資料,回顧了jsp知識。

2、 初次接觸搜尋引擎的開發,首先是對lucene進行了乙個系統的知識了解和相關知識的學習,掌握了初步的開發方法和工作,過程和流程,於是開始上手。

3、 首先是需要熟悉lucene的方法,就是實現在記憶體中顯示,由於有看相關的資料書,以及在網上的學習,並且通過不斷的學習實踐,分別開發了testlucene project ,wan project,wendang project,newtest project,lucene project,ceshi project ,ceshi2 project,對lucene有了更加進一步的了解,通過不斷的嘗試,在記憶體中顯示的問題得到了還算順利的解決;

4、 在此過程中,首先是對資料庫進行了索引,然後使用ikanalyzer對其進行了中文切詞。在把記憶體顯示到網頁中的時候,遇到了問題,傳值過去一直是null,值為空,和陳靖毅和苗香進行了**,還是傳值方式的問題。後來的解決辦法是重新編寫了程式,因為開始使用的是多字段查詢,servlet呼叫不到,後來使用分開,單字段查詢,實現了。

5、 後來在實現顯示到jsp頁面上後,又存在了分詞問題顯示不了,只能按照順序顯示,而且,也不能高亮顯示。後來發現是記憶體中的也有問題,就是分詞後沒能呼叫,而按照順序顯示了出來,找到了問題,然後修改了**,就能實現了。關於高亮顯示的問題,各抒己見,後來我用自己的方法解決了。

關於此問題,我做了個人小結,附在後面。

6、 關於模糊查詢,開始一直想嘗試用stemming,但後來發現不行,fuzzing也不行。後來使用了snowballfilter 才實現了模糊查詢;

7、 在介面製作過程中,分頁遇到了問題,就是不能正常跳轉,開始一直想著用jsp直接實現頁面的資料獲取和轉換,後來發現壓根不行,最後使用了session才解決了此問題。

8、 關於中英文一一對應的問題,期間嘗試過中英文先翻譯,再查詢,發現不行;後來又嘗試對中文進行分詞,然後查詢,發現還是不行。最後得到的結論是,要不我們使用別人的詞庫,要不我們需要有自己的詞庫,才能解決問題,要不然是解決不了問題的。所以,目前,這個問題正在解決當中。

9、 但針對問題8,我們使用劃詞能找到對應的解釋,但準確度還有待考究,所以,完全解決的辦法,還是需要有自己的詞庫。

10、 在鏈結外站的過程中,鏈結顏色一致不定,但方法是對的,好幾個人都看了好久,都沒找出問題,後來我自己才發現,原來是因為快取的緣故,才解決了問題。

11、 關於評分問題,由於lucene自帶的評分標準,所以得出的結果本身是按照降序排列的,也就是說,準確度高的在前面,後來因為要求要顯示在介面中,所以後來才實現把分值列印出來。

12、 在顯示結果的頁面中,由於沒有使用css,所以翻頁出來的長度不一致,而且不能保證選擇翻頁的項總在底端,後來通過css設定,讓翻頁的選項一直處在頁面底端,這樣能解決美觀問題和頁面問題。

13、 開始的時候由於**沒有優化,伺服器啟動很慢,反應也很慢,後來對**進行了優化,而且在笑林同志的幫助下,對介面進行了重新的設計和優化,現在所有基本完成,等自己的詞庫一旦建成,就將編寫**,就能完全的實現了。

14、 下面將附錄個人心得以及設計說明書如下:

附錄一、個人搜尋引擎開發的三種高亮顯示的方法小結

附錄二、關於ikanalyzer3.2.8擴充套件詞典配置的個人心得

附錄三、關於lucene建立資料庫索引

附錄四、關於在搜尋引擎分詞查詢中的分詞問題和詞性處理問題

附錄五、解決搜尋引擎開發的高亮顯示問題的個人心得

附錄六、設計說明書

15、 附錄

一、..\個人搜尋引擎開發的三種高亮顯示的方法小結.txt

16、 附錄

二、..\關於ikanalyzer3.2.8擴充套件詞典配置的個人心得和意見,希望對大家有參考價值.doc

17、 附錄

三、..\關於lucene建立資料庫索引.doc

18、 附錄

四、..\關於在搜尋引擎分詞查詢中的分詞問題和詞性處理問題.doc

19、 附錄

六、..\..\設計說明書.docx

搜尋引擎優化的黃金規則

1 網頁優化的重要的部分就是title部分,這個地方應該是你每次優化的重點 2 網頁的頭部和底部是很重要的 對於搜尋引擎來說,盡量的將關鍵字加到裡面。不要去在乎所謂的關鍵詞密度,只要你的密度不超過50 只要你提供的內容是符合的,只要你的內容對於你的使用者來說是重要的,不可缺少的,適當的加入些關鍵詞在...

Seo之搜尋引擎的原理

在 優化過程中,我們首先要了解的就是搜尋引擎的原理,雖然我倡導不刻意的去研究搜尋引擎的演算法,但是對於seoer,在保證 質量的同時,注意搜尋引擎的演算法,略加變通會更好的提公升 的排名。我所反對的研究是以搜尋引擎為準則,內容的調整緊跟搜尋引擎的變化,這是一種本末倒置的優化方案,雖然它同樣會讓 有乙...

《搜尋引擎的使用技巧》教學設計

一 教材分析 在資訊社會,面對紛繁複雜的資訊,高效地獲取有用的資訊來支撐自己的學習和工作,是新世紀青少年學生必須具備的資訊素養之一。本節旨在培養和提公升學生獲取網路資訊的能力,使其成為每位學生在資訊社會必須掌握的生存技能,並為學生學會有效組織和處理資訊奠定基礎,是學生繼續學習和不斷發展的不竭動力。i...