中文文字抄襲檢查系統的改良與設計

2022-11-11 11:42:02 字數 5843 閱讀 9807

軟體開發與設計

鄭天巨集,許杭傑,董黎剛

(浙江工商大學資訊與電子工程學院,杭州310018)

摘要:由於目前常見的文字抄襲檢查系統都存在對文字的關鍵資訊選擇不準確的問題,從而影響了判斷的準確

性。開發的中文文字抄襲檢查系統在採用k-grams演算法的基礎上,利用基於統計的中文分詞技術對其改良。實驗結果表明通過改良可以使系統更有效地選取關鍵資訊,提高判斷的準確性。

關鍵字:改良;關鍵資訊;抄襲檢查系統;k- ̄ams演算法;中文分詞

zheng 衄h佃

1國內外抄襲檢測技術

1.1現有系統

通過觀察,發現這類系統的工作流程大體相同。它們先將待檢測文章按照一定方法分割,然後排除會導致判斷錯誤

cops系統ll_:其原理是把文章分解成句子,把句子作為關鍵資訊,利用hash函式生成hash值來與資料庫中的文章做比較,從而判斷相似度。其存在的主要問題[21是在分割

的干擾資訊(如標點)… 並提取其關鍵資訊(不同的系統其關鍵資訊的定義各不相同,有些是句子,有些是詞語),如標點,並通過文章間關鍵資訊的比對從而判斷抄襲。

工作流程圖如圖1所示。

句子時因為標點原因而造成誤分,從而導致關鍵資訊的提取錯誤。例如與

cops系統由於u.s.中的「.」使兩句話分別分為了三句和三句。這樣一

來,其中的theu與s便會被系統認定為雷同,從而產生較

多的誤判。

check系統i31:其原理是通過比較關鍵詞的方法來判斷相似性。系統通過分析文章結構資訊,將文章組織成文件樹,隨後系統利用一些啟發式的方法,找出文件樹節點關鍵詞。

系統通過比較樹節點關鍵詞,再通過相應計算求出相似度。其存在的主要問題在於關鍵詞的查詢。若要應用於中文,顯然它首先要解決中文分詞問題,還要確保選取的關鍵詞是能夠代表文章的關鍵資訊。

學位**不端檢測系統 :系統先分析文章結構資訊,對不同層次的文章結構(章,段,句),分別提取其關鍵資訊,生成「指紋」,通過分層次比較待檢測文章與資料庫文章的「指紋」,從而判斷是否抄襲。對如何科學定義「關鍵資訊」,

**專案:浙江省科技計畫專案:面向中小企事業單位應用

圖1工作流程圖

1.2現有抄襲檢測方法

現有抄襲檢測方法主要有如下4種[81[91:基於字串匹

的網路綜合管理服務平台浙江工商大學學生創新專案

作者簡介:鄭天巨集(1989一),男,在讀本科生;許杭傑

並有效提取這些資訊,此系統沒有給出答案。

rost系統[51:此系統先按使用者要求,將文章分成50—的文字塊,利用qingqing演算法提取關鍵資訊,然後利用演算法實現相似性檢測和度量。它與學位**不端

(1989一),男,在讀本科生;董黎剛(1973一),男,從事計算

機網路教學和研究。

檢測系統一樣存在著如何定義提取關鍵資訊的問題。收稿日期

—23—

電腦程式設計技巧與維護

配的方法,基於詞頻統計的方法,基於語義知識的方法和基於文件指紋的方法。

基於字串匹配的方法:它利用字串匹配原理,統計

待檢測文件與資料庫中文件中相同的字串數目,從而做出判斷。決定其判斷正確與否的「關鍵資訊」是從待檢測文件中選取的字串。cops系統就採用此方法。

基於詞頻統計的方法:它先將文件分解成單詞序列,統計出文件中單詞的出現次數,以此作為文件的特徵值,與數

據庫中文件作比較從而得出結果。決定其判斷正確與否的「關鍵資訊」是系統選擇的單詞。check系統就採用此方法。

基於語義知識的方法:它通過各種方法提取文章的語義

資訊,通過比較待檢測文章與資料庫文章的語義相似度從而達到判別抄襲的目的。由於它的判斷方法與《著作權法》「不保護思想,只保護思想的表達」的立法思想相悖,目前為止沒有系統直接應用此方法。

基於文件指紋的方法:它利用雜湊函式將待檢測文章的

語義結構(章節,段落,句子)分別轉換為數字,再將得到的數字與已經轉換為數字的資料庫文章做比較。此方法與基於字串匹配的方法的不同處在於它更注重文章的層次結構。

決定其判斷正確與否的「關鍵資訊」是文章的語義結構。學位**不端檢測系統,rost系統都採用了此方法。

其中,基於字串匹配的方法,基於詞頻統計的方法屬於與語義無關的抄襲檢測方法;基於文件指紋的方法由於與文章的語義結構相關,故與基於語義知識的方法同屬於與語義相關的抄襲檢測方法。

2 核心技術

2。1基於統計的中文分詞技術

現有的分詞方法大體可分為3大類㈣:基於字串匹配的分詞法、基於理解的分詞法和基於統計的分詞法。基於統計的分詞法的理論基礎是從形式上看,詞語是穩定的字的組合,

因此文章中相鄰的字組合出現的次數越多,這些相鄰的字組合就越可能是乙個詞。

演算法k-grams演算法『ll】是一種基於字串匹配的抄襲檢測演算法。它利用重疊文字塊作為關鍵資訊來與另一文字進行字串匹

配,統計匹配的次數。具體操作是先確定取樣的文字塊長度(設為ll),在確保取樣的長度固定的前提上,將一篇文章分解

為連續定長的文字塊,要求保證相鄰的文字塊之間有l一1個字元是重疊的(即重疊文字塊),將這些文字塊一一記錄,隨後選取其他文章,用剛才選取的文字塊與其進行字串匹配,若匹配成功則認定為一次雷同。定義一篇文章抄襲比例為

前列的總數

夏麗萎藤,其演算法如下:

定義每個文字塊長度為l

待比較的兩篇文章

for(i:n){

分解文章}一

24一for0:n){

啪字串匹配判斷

++goal;//雷同數量

對於計算機而言,判斷自然語言語義是極其困難的,這不僅要求系統具有龐大的中文詞典庫,同時也要求對詞語具有較高的識別能力,這不但使系統執行需要更多的空間和時間,而且使系統實現起來非常困難,難以保證系統良好的工作。而k-grams演算法與語義無關,可避免上述影響。

與上面介紹的其他檢測方法一樣,此方法也存在著決定判斷正確與否的「關鍵資訊」。它將分解得到的所有重疊文字塊都進行了字串匹配判斷,因此,決定k-grams演算法正確性的

關鍵資訊是進行字串匹配判斷的重疊文字塊。然而並非所有的文字塊都應作為關鍵資訊進行匹配判斷,像文章中的常用語句就不應被選為關鍵資訊。常用語句的特徵是在文章**現的頻率高,比如常用語句「計算機網路」會出現在所有介紹關於計算機網路的文獻中,若拿它做匹配判斷,顯然會造成錯誤。

當然,可以人為設定較長的重疊文字塊長度來避免選擇常用語句。然而較長的重疊文字塊長度卻會導致「關鍵資訊」的漏選,從而導致較多的漏判(即雷同的部分沒有被認定出來)。為此,提出利用基於統計的中文分詞技術對其進行改良。

2.3利用基於統計的中文分詞技術對k-grams演算法改良

基於統計的中文分詞技術的演算法是在文章中查詢特定字組合出現的頻率,若出現的頻率高,則認為此字組合為單詞。單純依靠此技術得到的單詞在不少情況下並非真正的中文單詞,

然而這些「單詞」卻滿足常用語句的特徵。正因為此,可以利用此技術對分解文章得到的重疊文字塊進行篩選,排除出現頻

率高的常用語句,從而提取到有效的關鍵資訊,提高檢查的準確性。改良後的k-grams演算法的具體操作是:(1)分解文章得到重疊文字塊;(2)定義乙個用於判斷頻率高低的門限值;(3)統計這些重疊文字塊在待檢測的文章**現的頻率;(4)

排除出現的頻率高於門限值的文字塊;(5)用剩下的文字塊與其他文章進行字串匹配;(6)統計抄襲數量。

假設字串匹配演算法時間複雜度為0(n),則上述分詞演算法的時間複雜度約為0 fn^2),整個系統的時間複雜度約為顯然需要進一步改良演算法,以提高系統執行效率。

上述演算法中利用計算文字塊出現的頻率是否超過門限值來判斷文字塊是否是需要被排除的文字塊,為了簡化該步驟,同時也為了減少接下去執行匹配演算法的文字量,可以認定其中文字塊出現次數高於一次就將之排除。鑑於k-grams演算法與

分詞演算法都執行了將分割得到的重疊的文字塊在文章中進行

字串匹配的演算法,可以將兩者進一步結合。為節省儲存分解後的重疊文字塊的空間,在分解文章時,系統同時進行匹

配演算法。然後,通過減少統計文字塊出現頻率步驟的匹配量來提高速度。具體是可以根據使用者的選擇來決定是否要對進行比較的兩篇文章都進行分詞判斷(即匹配量的統計),還是僅對一篇文章統計。

最後,為了進一步減少計算量,系統可

以根據使用者設定來決定是否跳過已匹配成功的重疊文字塊。

軟體開發與設計

提高,但是此時系統識別的常用語句數有所減少,得出的抄襲比例值也有所上公升。

具體是當匹配成功時,系統從匹配成功的文字塊後的第乙個字元起開始比較。3系統介紹和實驗結果

由此可知,在使用分詞技術後,系統避免了一些常用語

句被誤判為抄襲,提高了判斷的準確性。同時對系統的進一步改良使系統的執行速度得到大大提高,這對於大量文章的檢測很有意義。人們可以將此時系統得出的抄襲比例值作為參考值,方便決定是否用使用分詞技術改良的演算法做進一步精確判斷。

上面介紹了基於統計的中文分詞與k-grams演算法的中文文字抄襲檢查系統技術。基於這些技術,用vc++6.0在windowsxp平台上開發了乙個中文文字抄襲檢查系統。該系統實現了對中文文字檔案(unicode)的抄襲檢查。

現介紹該系統,隨後利用此系統對使用分詞前後判斷的結果進行比較。

3.1系統介紹

4 結語

通過對現有系統(cops系統、check系統、學位**

本系統的主要功能是根據使用者的選擇,讀取需要檢查的中文文字檔案自動刪除干擾判斷的字元(如標點、空格)後進行抄襲檢測,最後向使用者顯示結果,並向使用者

不端檢測系統、rost系統)資料的研究,針對中文的特點,

採用了k-grams演算法,並對其存在的如何選取關鍵資訊的問題,利用基於統計的分詞方法的中文分詞技術對其進行了改良。用vc++6.0在windowsxp平台上開發了乙個中文文字抄襲檢查系統,實現了對中文文字檔案(unicode)的抄襲檢查,並通過實驗觀察到改良對於系統判斷的準確性與執行速度的提高。

指出文章的雷同部分。這些看似複雜的過程,卻被系統的簡易操作介面所替代,它還能以不同顏色和字形的字型將雷同

部分與其他部分區分,即使是非計算機專業的人士也能馬上掌握其使用方法。系統總體框架如圖2所示。

參考文獻

[2】李旭.基於串匹配方法的文件複製檢測系統研究[db/ol].

[4]中國知網.學位**學術不端行為檢測系統使用說明[eb/

圖2系統總體框架

3.2實驗

ol].

[5]夫夫.rost反剽竊系統說明靡靡.反剽竊**檢測系統常見問題[eb/ol].

首先,對《走向科學?——乙份抄襲樣本的證實與分析》(錢世榮.fj1脅書所提出的抄襲樣本——脅書學元科學層面的研究亟待加強》 (作為文章a)與《走向科學一中國現代檔案學元科學層面分析》 (作為文章b)進行測試,執行結果如表1所示。

表1抄襲樣本測試結果

文章長度執行時間識別的常用語句數抄襲比例

(刪去干擾後的字元數)(ms)(%)

【8】李旭,趙亞偉,劉國華.基於指紋和語義特徵的文件複製

檢測方法[j].燕山大學學報麻會東,劉國華,李現偉,劉春輝.基於文件指紋的中文

複製檢測方法ⅲ.廣西師範大學學報(自然科學版),

未使用分詞技術

使用分詞技術

文章a:3239文章b:2828

701l149//

2544266

39655358

(同上)

中文搜尋引擎技術揭密:中文分詞[eb/ol].

使用提速後的分詞技術 (同上)

通過觀察實驗結果,發現在使用分詞技術和使用提速後的分詞技術後,系統均識別出了一些需排除的常用語句。同時在使用提速後的分詞技術後,系統的執行時間得到了很大

(上接第5頁)

【2】戴亞非,李曉明,唐朔飛.計算機自動組卷演算法分析[j].[j].江漢大學學報(自然科學

小型微型計算機系統

[3陳國良,王熙發.遺傳演算法及其應用【3]m].北京:人民郵

電出版社

[4】路平,王敏娟,萬昆.試題庫自動組卷中選題策略研究

【5】劉彬,金濤,陳大平.遺傳演算法在試題組卷中的應用[jj

燕山大學學報

【6】余勝泉,姚顧波,何克抗.通用試題庫的組卷策略【m]

重慶:高校教育技術協會第二屆年會**集,2001,12.

25—一

生而為贏美文英文文字及中文翻譯

生而為贏翻譯 第一篇 青春 青春不是年華,而是心境 青春不是桃面 丹唇 柔膝,而是深沉的意志,恢巨集的想象,炙熱的戀情 青春是生命的深泉在湧流。青春氣貫長虹,勇銳蓋過怯弱,進取壓倒苟安。如此銳氣,二十後生而有之,六旬男子則更多見。年歲有加,並非垂老,理想丟棄,方墮暮年。歲月悠悠,衰微隻及肌膚 熱忱拋...

關於初中語文文字解讀的思考

如何做到文字解讀的深刻和獨到?教師對文字深刻 獨到的解讀首先是建立在準確的基礎上的。一千個讀者就有一千個哈姆雷特 面對同一文字,不同的人或者說從不同的角度去閱讀,其理解是不盡相同的,這就需要我們處理好多元與一元 個性與共性之間的辯證關係,教屬於這篇文章獨有的。三 找準學生充分閱讀文字後產生的興奮點 ...

礦熱爐的裝置系統介紹抄襲版交作業用

礦熱爐的裝置及 介紹班級 冶金與材料工程 0903班 設計 郝立 材料整理 連星宇 材料收集 周雲峰 執筆 目錄1.礦熱爐的介紹 2.礦熱爐的結構特點 3.礦熱爐主要類別 用途 4.方法及原理 5.最新發展 6.未來方向 礦熱爐的介紹 礦熱爐又稱電弧電爐或電阻電爐。它主要用於還原冶煉礦石,碳質還原劑...