中文文字抄襲檢查系統的改良與設計

軟體開發與設計

鄭天巨集，許杭傑，董黎剛

（浙江工商大學資訊與電子工程學院，杭州３１００１８）

摘要：由於目前常見的文字抄襲檢查系統都存在對文字的關鍵資訊選擇不準確的問題，從而影響了判斷的準確

性。開發的中文文字抄襲檢查系統在採用ｋ－ｇｒａｍｓ演算法的基礎上，利用基於統計的中文分詞技術對其改良。實驗結果表明通過改良可以使系統更有效地選取關鍵資訊，提高判斷的準確性。

關鍵字：改良；關鍵資訊；抄襲檢查系統；ｋ－￣ａｍｓ演算法；中文分詞

ｚｈｅｎｇ　衄ｈ佃

１國內外抄襲檢測技術

１．１現有系統

通過觀察，發現這類系統的工作流程大體相同。它們先將待檢測文章按照一定方法分割，然後排除會導致判斷錯誤

ｃｏｐｓ系統ｌｌ＿：其原理是把文章分解成句子，把句子作為關鍵資訊，利用ｈａｓｈ函式生成ｈａｓｈ值來與資料庫中的文章做比較，從而判斷相似度。其存在的主要問題［２１是在分割

的干擾資訊（如標點）…　並提取其關鍵資訊（不同的系統其關鍵資訊的定義各不相同，有些是句子，有些是詞語），如標點，並通過文章間關鍵資訊的比對從而判斷抄襲。

工作流程圖如圖１所示。

句子時因為標點原因而造成誤分，從而導致關鍵資訊的提取錯誤。例如與

ｃｏｐｓ系統由於ｕ．ｓ．中的「．」使兩句話分別分為了三句和三句。這樣一

來，其中的ｔｈｅｕ與ｓ便會被系統認定為雷同，從而產生較

多的誤判。

ｃｈｅｃｋ系統ｉ３１：其原理是通過比較關鍵詞的方法來判斷相似性。系統通過分析文章結構資訊，將文章組織成文件樹，隨後系統利用一些啟發式的方法，找出文件樹節點關鍵詞。

系統通過比較樹節點關鍵詞，再通過相應計算求出相似度。其存在的主要問題在於關鍵詞的查詢。若要應用於中文，顯然它首先要解決中文分詞問題，還要確保選取的關鍵詞是能夠代表文章的關鍵資訊。

學位**不端檢測系統　：系統先分析文章結構資訊，對不同層次的文章結構（章，段，句），分別提取其關鍵資訊，生成「指紋」，通過分層次比較待檢測文章與資料庫文章的「指紋」，從而判斷是否抄襲。對如何科學定義「關鍵資訊」，

**專案：浙江省科技計畫專案：面向中小企事業單位應用

圖１工作流程圖

１．２現有抄襲檢測方法

現有抄襲檢測方法主要有如下４種［８１［９１：基於字串匹

的網路綜合管理服務平台浙江工商大學學生創新專案

作者簡介：鄭天巨集（１９８９一），男，在讀本科生；許杭傑

並有效提取這些資訊，此系統沒有給出答案。

ｒｏｓｔ系統［５１：此系統先按使用者要求，將文章分成５０—的文字塊，利用ｑｉｎｇｑｉｎｇ演算法提取關鍵資訊，然後利用演算法實現相似性檢測和度量。它與學位**不端

（１９８９一），男，在讀本科生；董黎剛（１９７３一），男，從事計算

機網路教學和研究。

檢測系統一樣存在著如何定義提取關鍵資訊的問題。收稿日期

—２３—

電腦程式設計技巧與維護

配的方法，基於詞頻統計的方法，基於語義知識的方法和基於文件指紋的方法。

基於字串匹配的方法：它利用字串匹配原理，統計

待檢測文件與資料庫中文件中相同的字串數目，從而做出判斷。決定其判斷正確與否的「關鍵資訊」是從待檢測文件中選取的字串。ｃｏｐｓ系統就採用此方法。

基於詞頻統計的方法：它先將文件分解成單詞序列，統計出文件中單詞的出現次數，以此作為文件的特徵值，與數

據庫中文件作比較從而得出結果。決定其判斷正確與否的「關鍵資訊」是系統選擇的單詞。ｃｈｅｃｋ系統就採用此方法。

基於語義知識的方法：它通過各種方法提取文章的語義

資訊，通過比較待檢測文章與資料庫文章的語義相似度從而達到判別抄襲的目的。由於它的判斷方法與《著作權法》「不保護思想，只保護思想的表達」的立法思想相悖，目前為止沒有系統直接應用此方法。

基於文件指紋的方法：它利用雜湊函式將待檢測文章的

語義結構（章節，段落，句子）分別轉換為數字，再將得到的數字與已經轉換為數字的資料庫文章做比較。此方法與基於字串匹配的方法的不同處在於它更注重文章的層次結構。

決定其判斷正確與否的「關鍵資訊」是文章的語義結構。學位**不端檢測系統，ｒｏｓｔ系統都採用了此方法。

其中，基於字串匹配的方法，基於詞頻統計的方法屬於與語義無關的抄襲檢測方法；基於文件指紋的方法由於與文章的語義結構相關，故與基於語義知識的方法同屬於與語義相關的抄襲檢測方法。

２　核心技術

２。１基於統計的中文分詞技術

現有的分詞方法大體可分為３大類㈣：基於字串匹配的分詞法、基於理解的分詞法和基於統計的分詞法。基於統計的分詞法的理論基礎是從形式上看，詞語是穩定的字的組合，

因此文章中相鄰的字組合出現的次數越多，這些相鄰的字組合就越可能是乙個詞。

演算法ｋ－ｇｒａｍｓ演算法『ｌｌ】是一種基於字串匹配的抄襲檢測演算法。它利用重疊文字塊作為關鍵資訊來與另一文字進行字串匹

配，統計匹配的次數。具體操作是先確定取樣的文字塊長度（設為ｌｌ），在確保取樣的長度固定的前提上，將一篇文章分解

為連續定長的文字塊，要求保證相鄰的文字塊之間有ｌ一１個字元是重疊的（即重疊文字塊），將這些文字塊一一記錄，隨後選取其他文章，用剛才選取的文字塊與其進行字串匹配，若匹配成功則認定為一次雷同。定義一篇文章抄襲比例為

前列的總數

夏麗萎藤，其演算法如下：

定義每個文字塊長度為ｌ

待比較的兩篇文章

ｆｏｒ（ｉ：ｎ）｛

分解文章｝一

２４一ｆｏｒ０：ｎ）｛

啪字串匹配判斷

＋＋ｇｏａｌ；／／雷同數量

對於計算機而言，判斷自然語言語義是極其困難的，這不僅要求系統具有龐大的中文詞典庫，同時也要求對詞語具有較高的識別能力，這不但使系統執行需要更多的空間和時間，而且使系統實現起來非常困難，難以保證系統良好的工作。而ｋ－ｇｒａｍｓ演算法與語義無關，可避免上述影響。

與上面介紹的其他檢測方法一樣，此方法也存在著決定判斷正確與否的「關鍵資訊」。它將分解得到的所有重疊文字塊都進行了字串匹配判斷，因此，決定ｋ－ｇｒａｍｓ演算法正確性的

關鍵資訊是進行字串匹配判斷的重疊文字塊。然而並非所有的文字塊都應作為關鍵資訊進行匹配判斷，像文章中的常用語句就不應被選為關鍵資訊。常用語句的特徵是在文章**現的頻率高，比如常用語句「計算機網路」會出現在所有介紹關於計算機網路的文獻中，若拿它做匹配判斷，顯然會造成錯誤。

當然，可以人為設定較長的重疊文字塊長度來避免選擇常用語句。然而較長的重疊文字塊長度卻會導致「關鍵資訊」的漏選，從而導致較多的漏判（即雷同的部分沒有被認定出來）。為此，提出利用基於統計的中文分詞技術對其進行改良。

２．３利用基於統計的中文分詞技術對ｋ－ｇｒａｍｓ演算法改良

基於統計的中文分詞技術的演算法是在文章中查詢特定字組合出現的頻率，若出現的頻率高，則認為此字組合為單詞。單純依靠此技術得到的單詞在不少情況下並非真正的中文單詞，

然而這些「單詞」卻滿足常用語句的特徵。正因為此，可以利用此技術對分解文章得到的重疊文字塊進行篩選，排除出現頻

率高的常用語句，從而提取到有效的關鍵資訊，提高檢查的準確性。改良後的ｋ－ｇｒａｍｓ演算法的具體操作是：（１）分解文章得到重疊文字塊；（２）定義乙個用於判斷頻率高低的門限值；（３）統計這些重疊文字塊在待檢測的文章**現的頻率；（４）

排除出現的頻率高於門限值的文字塊；（５）用剩下的文字塊與其他文章進行字串匹配；（６）統計抄襲數量。

假設字串匹配演算法時間複雜度為０（ｎ），則上述分詞演算法的時間複雜度約為０　ｆｎ＾２），整個系統的時間複雜度約為顯然需要進一步改良演算法，以提高系統執行效率。

上述演算法中利用計算文字塊出現的頻率是否超過門限值來判斷文字塊是否是需要被排除的文字塊，為了簡化該步驟，同時也為了減少接下去執行匹配演算法的文字量，可以認定其中文字塊出現次數高於一次就將之排除。鑑於ｋ－ｇｒａｍｓ演算法與

分詞演算法都執行了將分割得到的重疊的文字塊在文章中進行

字串匹配的演算法，可以將兩者進一步結合。為節省儲存分解後的重疊文字塊的空間，在分解文章時，系統同時進行匹

配演算法。然後，通過減少統計文字塊出現頻率步驟的匹配量來提高速度。具體是可以根據使用者的選擇來決定是否要對進行比較的兩篇文章都進行分詞判斷（即匹配量的統計），還是僅對一篇文章統計。

最後，為了進一步減少計算量，系統可

以根據使用者設定來決定是否跳過已匹配成功的重疊文字塊。

軟體開發與設計

提高，但是此時系統識別的常用語句數有所減少，得出的抄襲比例值也有所上公升。

具體是當匹配成功時，系統從匹配成功的文字塊後的第乙個字元起開始比較。３系統介紹和實驗結果

由此可知，在使用分詞技術後，系統避免了一些常用語

句被誤判為抄襲，提高了判斷的準確性。同時對系統的進一步改良使系統的執行速度得到大大提高，這對於大量文章的檢測很有意義。人們可以將此時系統得出的抄襲比例值作為參考值，方便決定是否用使用分詞技術改良的演算法做進一步精確判斷。

上面介紹了基於統計的中文分詞與ｋ－ｇｒａｍｓ演算法的中文文字抄襲檢查系統技術。基於這些技術，用ｖｃ＋＋６．０在ｗｉｎｄｏｗｓｘｐ平台上開發了乙個中文文字抄襲檢查系統。該系統實現了對中文文字檔案（ｕｎｉｃｏｄｅ）的抄襲檢查。

現介紹該系統，隨後利用此系統對使用分詞前後判斷的結果進行比較。

３．１系統介紹

４　結語

通過對現有系統（ｃｏｐｓ系統、ｃｈｅｃｋ系統、學位**

本系統的主要功能是根據使用者的選擇，讀取需要檢查的中文文字檔案自動刪除干擾判斷的字元（如標點、空格）後進行抄襲檢測，最後向使用者顯示結果，並向使用者

不端檢測系統、ｒｏｓｔ系統）資料的研究，針對中文的特點，

採用了ｋ－ｇｒａｍｓ演算法，並對其存在的如何選取關鍵資訊的問題，利用基於統計的分詞方法的中文分詞技術對其進行了改良。用ｖｃ＋＋６．０在ｗｉｎｄｏｗｓｘｐ平台上開發了乙個中文文字抄襲檢查系統，實現了對中文文字檔案（ｕｎｉｃｏｄｅ）的抄襲檢查，並通過實驗觀察到改良對於系統判斷的準確性與執行速度的提高。

指出文章的雷同部分。這些看似複雜的過程，卻被系統的簡易操作介面所替代，它還能以不同顏色和字形的字型將雷同

部分與其他部分區分，即使是非計算機專業的人士也能馬上掌握其使用方法。系統總體框架如圖２所示。

參考文獻

［２】李旭．基於串匹配方法的文件複製檢測系統研究［ｄｂ／ｏｌ］．

［４］中國知網．學位**學術不端行為檢測系統使用說明［ｅｂ／

圖２系統總體框架

３．２實驗

ｏｌ］．

［５］夫夫．ｒｏｓｔ反剽竊系統說明靡靡．反剽竊**檢測系統常見問題［ｅｂ／ｏｌ］．

首先，對《走向科學？——乙份抄襲樣本的證實與分析》（錢世榮．ｆｊ１脅書所提出的抄襲樣本——脅書學元科學層面的研究亟待加強》　（作為文章ａ）與《走向科學一中國現代檔案學元科學層面分析》　（作為文章ｂ）進行測試，執行結果如表１所示。

表１抄襲樣本測試結果

文章長度執行時間識別的常用語句數抄襲比例

（刪去干擾後的字元數）（ｍｓ）（％）

【８】李旭，趙亞偉，劉國華．基於指紋和語義特徵的文件複製

檢測方法［ｊ］．燕山大學學報麻會東，劉國華，李現偉，劉春輝．基於文件指紋的中文

複製檢測方法ⅲ．廣西師範大學學報（自然科學版），

未使用分詞技術

使用分詞技術

文章ａ：３２３９文章ｂ：２８２８

７０１ｌ１４９／／

２５４４２６６

３９６５５３５８

（同上）

中文搜尋引擎技術揭密：中文分詞［ｅｂ／ｏｌ］．

使用提速後的分詞技術　（同上）

通過觀察實驗結果，發現在使用分詞技術和使用提速後的分詞技術後，系統均識別出了一些需排除的常用語句。同時在使用提速後的分詞技術後，系統的執行時間得到了很大

（上接第５頁）

【２】戴亞非，李曉明，唐朔飛．計算機自動組卷演算法分析［ｊ］．［ｊ］．江漢大學學報（自然科學

小型微型計算機系統

［３陳國良，王熙發．遺傳演算法及其應用【３］ｍ］．北京：人民郵

電出版社

［４】路平，王敏娟，萬昆．試題庫自動組卷中選題策略研究

【５】劉彬，金濤，陳大平．遺傳演算法在試題組卷中的應用［ｊｊ

燕山大學學報

【６】余勝泉，姚顧波，何克抗．通用試題庫的組卷策略【ｍ］

重慶：高校教育技術協會第二屆年會**集，２００１，１２．

２５—一

中文文字抄襲檢查系統的改良與設計

生而為贏美文英文文字及中文翻譯

關於初中語文文字解讀的思考

礦熱爐的裝置系統介紹抄襲版交作業用

中文文字抄襲檢查系統的改良與設計

生而為贏美文英文文字及中文翻譯

關於初中語文文字解讀的思考

礦熱爐的裝置系統介紹抄襲版交作業用

相關推薦