CAJ格式轉換成的方法

2022-09-07 22:03:11 字數 1994 閱讀 4779

從不同格式的檔案中提取文字前需要做好以下準備工作,安裝cajviewer5.5瀏覽器軟體和acrobat 5 專業版瀏覽器軟體安裝office2003,並完全安裝of?鄄fice工具microsoft office document imaging,然後在印表機裡面會增加microsoft office document image writer印表機。

microsoft office document image可以非常準確的全檔案識別轉化中文、英文、**。

一、caj檔案的識別

(一)首先,從網上**caj格式的資料檔案儲存到本地硬碟上。

(二)然後,啟動cajviewer瀏覽器程式,並在該程式中開啟剛才儲存的caj格式的檔案。瀏覽檔案到最後一頁後,不要關閉caj瀏覽器程式。

(三)在caj瀏覽器程式視窗中,選擇「檔案」→「列印」,並選擇印表機為microsoft office document image writer印表機,勾選列印到檔案選項和確定列印頁數。

(四)儲存列印檔案(*.prn)到適當位置。等待列印完成後,microsoft office document image 自動開啟剛才儲存的列印檔案。

(五)在microsoft office document image視窗中,選擇「頁面」選單中的「選擇所有頁面」選單項,然後選擇「工具」選單中的「使用ocr識別文字」提取文字。

(六)選擇「工具」下的 「將文字傳送到word」,最後將把整個caj檔案識別輸出到word檔案中。

二、pdf檔案的識別

(一)以文字形式儲存的pdf檔案,用acrobat 5 專業版,識別整個檔案。直接開啟從網上**的pdf格式檔案另存為rtf檔案,或者選擇工具欄上的文字選擇按鈕,然後選擇文字區域,然後複製到word中即可。

(二)以**形式儲存的pdf檔案,將pdf檔案列印到microsoft office document image writer印表機,選擇列印形成的檔案的儲存位置,然後會自動形成乙個mdi檔案,並且自動用microsoft office document image開啟此檔案,然後在microsoft office document im?鄄age中選擇「工具」選單中的「使用ocr識別文字」,識別完成後,在選擇「工具」下的,「將文字傳送到word」,最後將把整個pdf檔案識別輸出到word檔案中。

(三)加密的pdf檔案先**解密軟體,解密後在參照上述步驟1),2) 進行。

(四)繁體pdf檔案用上述步驟2)的方法識別到word後,用word中的「工具」→「語言」→「中文繁簡轉換」

三、超星檔案的識別

(一)全檔案識別列印到microsoft office document image writer印表機,然後按上述pdf檔案的識別步驟中第二點操作,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和正文識別到word中,再合併到一起。列印時要填入列印頁碼從1到最後一頁,不要選擇列印全部。在列印選項中,要將頁面比例設成真實大小,而不是整寬。

注意識別速度比其他格式要慢很多,請保持耐心。一般一本200多頁的書,識別需要幾分鐘的時間。

(二)超星檔案識別相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf檔案,然後再用上述識別pdf檔案的方法轉成word。

四、後記

經過試驗,發現microsoft office document image 存在一些不穩定的問題,如在用caj列印到microsoft office document image writer時,發現用caj5.5版本比較快,而caj5.0有時出現假死機。

頁面顯示大時,轉化的識別率較高。如果頁數多的檔案,包括超星,可以分多次轉化。

由於虛擬列印到microsoft office document image writer 比較慢,並且形成的虛擬檔案很大,1本200多頁的書大約是60m,因此會嚴重影響機器的執行速度、c盤和記憶體空間。建議配置好的機器一次轉化不要超過200頁,配置差的不要超過100頁,同時列印時在工作列中會出現印表機圖示,可以雙擊,看到列印任務的進度,避免誤以為宕機。轉化完成後請刪除c:

\windows\temp目錄下的虛擬列印檔案,否則c盤很快會被用光。

CAJ格式轉換成的方法

現在網上許多資料都是以caj pdf等檔案格式提供的,其中的文字不能被直接編輯。網上提供了許多處理這種情況的軟體,但是它們不是效率低,就是只能提取其中部分文字。本文所述利用微軟提供的ocr識別技術從caj pdf等檔案中提取全部文字的方法,簡便快捷,效率很高。從不同格式的檔案中提取文字前需要做好以下...

將pdf轉換成格式的方法

從網上 的pdf文件,很多都只允許你閱讀,並不支援你複製列印。然而辦公中有時需要我們將這類pdf電子書轉成可以編輯的word文件,遇到這種情況,很多辦公新手往往不知道從何下手,下面就教大家如何快速將pdf轉換成word文件。由於我使用的是迅捷pdf轉換成word轉換器免費試用版,所以我就以此軟體為例...

如何把PDF和CAJ檔案轉換成

pdf等檔案格式提供的,其中的文字不能被直接編輯。網上提供了許多處理這種情況的軟體,但是它們不是效率低,就是只能提取其中部分文字。本文所述利用微軟提供的ocr識別技術從caj pdf等檔案中提取全部文字的方法,簡便快捷,效率很高。從不同格式的檔案中提取文字前需要做好以下準備工作,安裝cajviewe...