紙質檔案數位化技術規範

2022-11-17 01:00:06 字數 4977 閱讀 7283

specification for digitization of *****-based records

1 範圍

本標準規定了紙質檔案數位化的主要技術要求。

本標準適用於採用各種裝置對紙質檔案的數位化加工處理及數位化成果的管理。

2 規範性引用檔案

下列檔案中的條款通過本標準的引用而成為本標準的條款。凡是注日期的引用檔案,其隨後所有的修改單(不包括勘誤的內容)或修訂版均不適用於本標準,然而,鼓勵根據本標準達成協議的各方研究是否可使用這些檔案的最新版本。凡是不注日期的引用檔案,其最新版本適用於本標準。

gb/t 17235.1 連續色調靜態影象的數字壓縮編碼第一部分:要求和指南

gb/t 17235.2 連續色調靜態影象的數字壓縮編碼第二部分:一致性測試

gb/t 18894 電子檔案歸檔與管理規範

3 術語和定義

下列術語和定義適用於本標準。

3.1數位化digitization

用計算機技術將模擬訊號轉換為數碼訊號的處理過程。

3.2紙質檔案數位化digitization of *****-based records

採用掃瞄器或數位相機等數碼裝置對紙質檔案進行數位化加工,將其轉化為儲存在磁帶、磁碟、光碟等載體上並能被計算機識別的數字影象或數字文字的處理過程。

3.3數字影象digital image

表示實物影象的整數陣列。乙個二維或更高維的取樣並量化的函式,由相同維數的連續影象產生。在矩陣(或其他)網路上取樣——連續函式,並在取樣點上將值最小化後的陣列。

3.4黑白二值影象binary image

只有黑白兩級灰度的數字影象。它對應於黑白兩種狀態的文字稿、線條圖等。

3.5連續色調靜態影象continuous-tone still image

以多於兩級灰度的不同濃淡層次或以不同顏色通道組合成的靜態數字影象。在紙質檔案數位化過程中,通常表現為灰度掃瞄和彩色掃瞄兩種模式。

3.6解析度resolution

單位長度內影象包含的點數或畫素數,一般用每英吋點數(dpi)表示。

3.7失真度distortion measure

對檔案進行數位化轉換後,數字影象與檔案原件在色彩、幾何等方面的偏離程度。

3.8可懂度intelligibility

數字影象向人或機器提供資訊的能力。

3.9影象壓縮image compression

清除影象冗餘或對影象近似的任一種過程,其目的是對影象以更緊湊的形式表示。紙質檔案數位化過程中,較常見的有tiff(g4)、jpeg等壓縮格式。

4 紙質檔案數位化基本要求

4.1基本原則

紙質檔案數位化的基本原則是使檔案資訊資源準確方便快捷地提供利用,使可以公開的檔案資訊資源得到共享,以滿足社會對檔案利用的需求。

4.2 數位化物件的確定原則

應當對所要進行數位化的物件按照一定的原則和方法進行確認,只有符合一定要求的紙質檔案文獻才能進行數位化。

4.2.1 符合國家法律法規的原則

紙質檔案的數位化,必須符合國家檔案開放規定以及有關規定。

4.2.2價值性原則

屬於歸檔範圍且應永久或長期儲存的、社會利用價值高的檔案可列入數位化加工的範圍。

4.3 基本環節

紙質檔案數位化的基本環節主要包括:檔案整理、目錄建庫、檔案掃瞄、影象處理、影象儲存、資料質檢、資料掛接、資料驗收、資料備份、成果管理等。

4.4 過程管理

4.1.1應加強紙質檔案數位化各環節的安全保密管理機制,確保檔案原件和數位化檔案資訊的安全。

4.2.2紙質檔案數位化的各個環節均應進行詳細的登記,並及時整理、彙總,裝訂成冊,在數位化工作完成的同時建立起完整、規範的記錄。

5 檔案整理

在掃瞄之前,根據檔案管理情況,按下述步驟對檔案進行適當整理,並視需要作出標識,確保檔案數位化質量。

5.1 目錄資料準備

按照《檔案著錄規則》(da/t18)等的要求,規範檔案中的目錄內容。包括確定檔案目錄的著錄項、字段長度和內容要求。如有錯誤或不規範的案卷題名、檔名、責任者、起止頁號和頁數等,應進行修改。

5.2 拆除裝訂

在不去除裝訂物情況下,影響掃瞄工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意保護檔案不受損害。

5.3 區分掃瞄件和非掃瞄件

按要求把同一案卷中的掃瞄件和非掃瞄件區分開。普發性檔案區分的原則是:無關和重份的檔案要剔除,有正式件的檔案可以不掃瞄原稿。

5.4 頁面修整

破損嚴重、無法直接進行掃瞄的檔案,應先進行技術修復,摺皺不平影響掃瞄質量的原件應先進行相應處理(壓平或熨平等)後再進行掃瞄。

5.5 檔案整理登記

製作並填寫紙質檔案數位化加工過程交接登記表單,詳細記錄檔案整理後每份檔案的起始頁號和頁數。

5.6 裝訂

掃瞄工作完成後,拆除過裝訂物的檔案應按檔案保管的要求重新裝訂。恢復裝訂時,應注意保持檔案的排列順序不變,做到安全、準確、無遺漏。

6 目錄建庫

6.1 資料格式選擇

目錄建庫應選擇通用的資料格式。所選定的資料格式應能直接或間接通過xml文件進行資料交換。

6.2 檔案著錄

按照《檔案著錄規則》(da/t18)的要求進行著錄,建立檔案目錄資料庫。

6.3 目錄資料質量檢查

採用人工校對或軟體自動校對的方式,對目錄資料庫的建庫質量進行檢查。核對著錄專案是否完整、著錄內容是否規範、準確,發現不合格的資料應要求進行修改或重錄。

7 檔案掃瞄

7.1 掃瞄方式

7.1.1 根據檔案幅面的大小(a4、a3、a0等)選擇相應規格的掃瞄器或專業掃瞄器(如工程圖紙可採用0號圖紙掃瞄器)進行掃瞄。

大幅面檔案可採用大幅面數碼平台,或者縮微拍攝後的膠片數位化轉換裝置等進行掃瞄,也可以採用小幅面掃瞄後的影象拼接方式處理。

7.1.2紙張狀況較差,以及過薄、過軟或超厚的檔案,應採用平板掃瞄方式;紙張狀況好的檔案可採用高速掃瞄方式以提高工作效率。

7.2掃瞄色彩模式

7.2.1掃瞄色彩模式一般有黑白二值、灰度、彩色等。通常採用黑白二值。

7.2.2頁面為黑白兩色,並且字跡清晰、不帶插圖的檔案,可採用黑白二值模式進行掃瞄。

7.2.3頁面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,可採用灰度模式掃瞄。

7.2.4頁面中有紅頭、印章或插有黑白**、彩色**、彩色插圖的檔案,可視需要採用彩色模式進行掃瞄。

7.3 掃瞄解析度

7.3.1掃瞄解析度引數大小的選擇,原則上以掃瞄後的影象清晰、完整、不影響影象的利用效果為準。

7.3.1 採用黑白二值、灰度、彩色幾種模式對檔案進行掃瞄時,其解析度一般均建議選擇≥100dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當提高解析度。

7.3.2 需要進行ocr漢字識別的檔案,掃瞄解析度建議選擇≥200dpi。

7.4 掃瞄登記

認真填寫紙質檔案數位化轉換過程交接登記表單,登記掃瞄的頁數,核對每份檔案的實際掃瞄頁數與檔案整理時填寫的檔案頁數是否一致,不一致時應註明具體原因和處理方法。

8 影象處理

8.1 影象資料質量檢查

8.1.1 對影象偏斜度、清晰度、失真度等進行檢查。發現不符合影象質量要求時,應重新進行影象的處理。

8.1.2 由於操作不當,造成掃瞄的影象檔案不完整或無法清晰識別時,應重新掃瞄。

8.1.3 發現檔案漏掃時,應及時補掃並正確插入影象。

8.1.4 發現掃瞄影象的排列順序與檔案原件不一致時,應及時進行調整。

8.1.5 認真填寫相關表單,記錄質檢結果和處理意見。

8.2 糾偏

對出現偏斜的影象應進行糾偏處理,以達到視覺上基本不感覺偏斜為準。對方向不正確的影象應進行旋轉還原,以符合閱讀習慣。

8.3 去汙

對影象頁面**現的影響影象質量的雜質如黑點、黑線、黑框、黑邊等應進行去汙處理。處理過程中應遵循在不影響可懂度的前提下展現檔案原貌的原則。

8.4 影象拼接

對大幅面檔案進行分割槽掃瞄形成的多幅影象,應進行拼接處理,合併為乙個完整的影象,以保證檔案數位化影象的整體性。

8.5 裁邊處理

採用彩色模式掃瞄的影象應進行裁邊處理,去除多餘的白邊,以有效縮小影象檔案的容量,節省儲存空間。

9 影象儲存

9.1 儲存格式

9.1.1 採用黑白二值模式掃瞄的影象檔案,一般採用 tiff(g4)格式儲存。

採用灰度模式和彩色模式掃瞄的檔案,一般採用jpeg格式儲存。儲存時的壓縮率的選擇,應以保證掃瞄的影象清晰可讀的前提下,盡量減小儲存容量為準則。

9.1.2 提供網路查詢的掃瞄影象,也可儲存為ceb、pdf或其他格式。

9.2影象檔案的命名

9.2.1紙質檔案目錄資料庫中的每乙份檔案,都有乙個與之相對應的唯一檔號,以該檔號為這份檔案掃瞄後的影象檔案命名。

9.2.2 多頁檔案可採用該檔號建立相應資料夾,按頁碼順序對影象檔案命名。

10 資料掛接

10.1 彙總掛接

檔案數位化轉換過程中形成的目錄資料庫與影象資料庫,通過質檢環節確認為「合格」後,通過網路及時載入到資料伺服器端彙總。通過編制程式或借助相應軟體,可實現目錄資料對相關聯的數字影象的自動搜尋、加入對應的電子位址資訊等,實現批量、快速掛接。

10.2 資料關聯

以紙質檔案目錄資料庫為依據,將每乙份紙質檔案檔案掃瞄所得的乙個或多個影象儲存為乙份影象檔案。將影象檔案儲存到相應資料夾時,要認真核查每乙份影象檔案的名稱與檔案目錄資料庫中該份檔案的檔號是否相同,影象檔案的頁數與檔案目錄資料庫中該份檔案的頁數是否一致,影象檔案的總數與目錄資料庫中檔案的總數是否相同等。通過每乙份影象檔案的檔名與檔案目錄資料庫中該份檔案的檔號的一致性和唯一性,建立起一一對應的關聯關係,為實現檔案目錄資料庫與影象檔案的批量掛接提供條件。

10.3認真填寫紙質檔案數位化轉換過程交接登記表單,記錄資料關聯後的頁數,核對每乙份檔案關聯後的頁數與檔案整理、掃瞄時填寫的頁數是否一致,不一致時應註明具體原因和處理辦法。

11 資料驗收

11.1資料抽檢

11.1.1 以抽檢的方式檢查已完成數位化轉換的所有資料,包括目錄資料庫、影象檔案及資料掛接的總體質量。

11.1.2 乙個全宗的檔案,資料驗收時抽檢的比率不得低於5%。

紙質檔案數位化規範DAT31 2019

分享 列印 放大字型 縮小字型 發布機構 萬源市檔案局發布日期 2018 04 16 紙質檔案數位化規範da t31 2017 前言本標準按照gb t 1.1 2009給出的規則起草。本標準替代da t 31 2005 紙質檔案數位化技術規範 本標準與da t 31 2005相比,主要技術變化如下 ...

紙質檔案數位化基本要求

1 數位化物件的確定原則 應當對所要進行數位化的物件按照一定的原則和利用方法進行確認,屬於歸檔範圍且應永久或長期儲存 符合國家有關規定的檔案可列入數位化加工的範圍。2 基本環節 紙質檔案數位化的基本環節主要包括 檔案整理 目錄建庫 檔案掃瞄 影象處理 影象儲存 資料掛接 資料驗收 資料備份 成果管理...

檔案數位化標準

檔案整理數位化加工服務 檔案整理 分類 編號 裝訂 修復等 檔案掃瞄 檔案 資料 圖紙 證照等 文件著錄 檔案 檔案 資料 業務的著錄工作 質量控制與檔案保護 遵循規範 1 中華人民共和國行業標準da t 18 1999 檔案著錄規則 2 歸檔檔案整理規則 會計檔案管理辦法 3 檔案管理軟體功能要求...