CAJ格式轉換成的方法

2022-09-12 13:03:10 字數 2634 閱讀 2615

現在網上許多資料都是以caj、pdf等檔案格式提供的,其中的文字不能被直接編輯。網上提供了許多處理這種情況的軟體,但是它們不是效率低,就是只能提取其中部分文字。本文所述利用微軟提供的ocr識別技術從caj、pdf等檔案中提取全部文字的方法,簡便快捷,效率很高。

從不同格式的檔案中提取文字前需要做好以下準備工作,安裝cajviewer5.5瀏覽器軟體和acrobat 5 專業版瀏覽器軟體安裝office2003,並完全安裝of?鄄fice工具microsoft office document imaging,然後在印表機裡面會增加microsoft office document image writer印表機。

microsoft office document image可以非常準確的全檔案識別轉化中文、英文、**。 一、caj檔案的識別 (一)首先,從網上**caj格式的資料檔案儲存到本地硬碟上。 (二)然後,啟動cajviewer瀏覽器程式,並在該程式中開啟剛才儲存的caj格式的檔案。

瀏覽檔案到最後一頁後,不要關閉caj瀏覽器程式。 (三)在caj瀏覽器程式視窗中,選擇「檔案」→「列印」,並選擇印表機為microsoft office document image writer印表機,勾選列印到檔案選項和確定列印頁數。 (四)儲存列印檔案(*.

prn)到適當位置。等待列印完成後,microsoft office document image 自動開啟剛才儲存的列印檔案。 (五)在microsoft office document image視窗中,選擇「頁面」選單中的「選擇所有頁面」選單項,然後選擇「工具」選單中的「使用ocr識別文字」提取文字。

(六)選擇「工具」下的 「將文字傳送到word」,最後將把整個caj檔案識別輸出到word檔案中。 二、pdf檔案的識別 (一)以文字形式儲存的pdf檔案,用acrobat 5 專業版,識別整個檔案。直接開啟從網上**的pdf格式檔案另存為rtf檔案,或者選擇工具欄上的文字選擇按鈕,然後選擇文字區域,然後複製到word中即可。

(二)以**形式儲存的pdf檔案,將pdf檔案列印到microsoft office document image writer印表機,選擇列印形成的檔案的儲存位置,然後會自動形成乙個mdi檔案,並且自動用microsoft office document image開啟此檔案,然後在microsoft office document im?鄄age中選擇「工具」選單中的「使用ocr識別文字」,識別完成後,在選擇「工具」下的,「將文字傳送到word」,最後將把整個pdf檔案識別輸出到word檔案中。 (三)加密的pdf檔案先**解密軟體,解密後在參照上述步驟1),2) 進行。

(四)繁體pdf檔案用上述步驟2)的方法識別到word後,用word中的「工具」→「語言」→「中文繁簡轉換」 三、超星檔案的識別 (一)全檔案識別列印到microsoft office document image writer印表機,然後按上述pdf檔案的識別步驟中第二點操作,要注意的是,超星列印功能有點區別,因為超星是目錄和全文分開的,所以列印時,需要分別把目錄和正文識別到word中,再合併到一起。列印時要填入列印頁碼從1到最後一頁,不要選擇列印全部。在列印選項中,要將頁面比例設成真實大小,而不是整寬。

注意識別速度比其他格式要慢很多,請保持耐心。一般一本200多頁的書,識別需要幾分鐘的時間。 (二)超星檔案識別相對比較麻煩一些,如果還有問題,可以先把超星列印成完整的pdf檔案,然後再用上述識別pdf檔案的方法轉成word。

四、後記經過試驗,發現microsoft office document image 存在一些不穩定的問題,如在用caj列印到microsoft office document image writer時,發現用caj5.5版本比較快,而caj5.0有時出現假死機。

頁面顯示大時,轉化的識別率較高。如果頁數多的檔案,包括超星,可以分多次轉化。 由於虛擬列印到microsoft office document image writer 比較慢,並且形成的虛擬檔案很大,1本200多頁的書大約是60m,因此會嚴重影響機器的執行速度、c盤和記憶體空間。

建議配置好的機器一次轉化不要超過 200頁,配置差的不要超過100頁,同時列印時在工作列中會出現印表機圖示,可以雙擊,看到列印任務的進度,避免誤以為宕機。轉化完成後請刪除 c:\windows\temp目錄下的虛擬列印檔案,否則c盤很快會被用光

很喜歡cajviewer這個軟體,就算是不能直接複製的文件,也可以用其自帶的文字識別功能來準確的識別。

關於亂碼問題,自己很少碰到,可以試下這兩個方法:

(1)複製後先貼上到記事本裡,之後在轉到word裡,或者用【選擇性貼上】貼上為無格式文字。

(2)直接用cajviewer的文字識別功能進行識別——點「選擇影象」按鈕,框選需要的文字後,右鍵選擇【文字識別】。(這裡還有乙個傳送到word,同樣可以試試)

自我我認為用其他軟體轉換沒什麼用,就算轉換成功,那格式的修改也是一大問題!

(1)caj複製來的文字每行後都有一段落標記,很是討厭,其實可以用word的替換功能很快去掉——選擇剛剛貼上進來的文字,執行【編輯】-【替換】,替換【^p】為空白就行了(^p即為段落標記),注意只「全部替換」一次,別不小心把全文都整成一段了……

(2)文件中可能會有很多空白行,一行行刪除太過費勁,同樣用替換功能,先將文字中的空格全部替換為空白(空格可能看不出來,全部替換就是了),再將【^p^p】全部替換為【^p】,多替換幾次就能把空白行刪除乾淨了……

如果是word2007的話,【替換】在開始的最右邊。可以使用【替換】最下面的【特殊格式】把那些變成空白。

CAJ格式轉換成的方法

從不同格式的檔案中提取文字前需要做好以下準備工作,安裝cajviewer5.5瀏覽器軟體和acrobat 5 專業版瀏覽器軟體安裝office2003,並完全安裝of?鄄fice工具microsoft office document imaging,然後在印表機裡面會增加microsoft offi...

將pdf轉換成格式的方法

從網上 的pdf文件,很多都只允許你閱讀,並不支援你複製列印。然而辦公中有時需要我們將這類pdf電子書轉成可以編輯的word文件,遇到這種情況,很多辦公新手往往不知道從何下手,下面就教大家如何快速將pdf轉換成word文件。由於我使用的是迅捷pdf轉換成word轉換器免費試用版,所以我就以此軟體為例...

如何把PDF和CAJ檔案轉換成

pdf等檔案格式提供的,其中的文字不能被直接編輯。網上提供了許多處理這種情況的軟體,但是它們不是效率低,就是只能提取其中部分文字。本文所述利用微軟提供的ocr識別技術從caj pdf等檔案中提取全部文字的方法,簡便快捷,效率很高。從不同格式的檔案中提取文字前需要做好以下準備工作,安裝cajviewe...