档案文化 > 文库 > 随笔

唱响馆藏档案数字化的“六部曲”

作者:河南省濮阳市档案局 刘伟 白桦

来源:中国档案资讯网

2014-05-30 星期五

1.       唱响馆藏档案数字化的“六部曲”

河南省濮阳市档案局   

近年来,我们河南濮阳市档案局馆以晋升国家一级档案馆和档案信息化建设为契机,加快馆藏档案数字化进程,唱响“六部曲”,收到了吹糠见米的效果。

第一部曲:目录数据录入曲。根据国家档案局《市、县级国家综合档案馆测评细则》中“建立馆藏全部档案及资料目录数据库”的要求,我们按照《电子文件归档与管理规范》中的目录数据库标准,结合馆藏实际,制定了数据录入工作的操作要求,严格要求录入人员数据按规范录入,保证数据录入质量。自20089月至今,将馆藏全部档案目录案卷级68406条、文件级460290条、资料12097条全部录入数据库,共计540793条。同时,我们发动全局人员对全部目录进行一次大检查,及时更正了一些错误,并采用人工校对和软件自动校对的方式对目录数据库的建库质量进行了检查,以确保目录数据规范。

第二部曲:扫描档案选择曲。根据国家档案局《市、县级国家综合档案馆测评细则》中“建立照片档案和音、视频档案全文数据库”和“建立珍贵重要及利用频繁纸质档案全文数据库”的要求,从馆藏实际出发,结合接收数字化音视频档案进馆,我们建立了馆藏全部照片档案和音、视频档案全文数据库,共计照片档案32185张、音频档案7260分钟、视频档案13162分钟;建立了珍贵重要及利用频繁纸质档案全文数据库,对民国档案、中共濮阳市委、濮阳市人民政府、中共濮阳地委、濮阳专员公署、中共安阳地委、安阳地区行政公署、濮阳市市直各单位全宗的档案进行了数字化扫描录入,这些档案中有利用率较高的濮阳市建市以来各行各业的档案,有关于知青政策、土地政策方面的档案,有濮阳、安阳分设时解决遗留问题的档案,等等,总计1397445页。

第三部曲:色彩模式分辨曲。扫描技术中最首要的选择是色彩模式选择和分辨率选择。《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率≥200dpi。黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,特殊情况下可适当提高分辨率。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。根据馆藏实际,我们确定了“以黑白扫描为主,对红头文件及其他带有红章的文件进行彩色扫描以更真实地显示档案原貌”的原则,具体标准是:(1)民国(53年以前)档案:300 dpi,彩色扫描;(2)照片:600 dpi,黑白照片用灰度扫描,彩色照片用彩色扫描;(3)文字加照片:300 dpi,彩色扫描;(4)文件上贴的纸条:300 dpi,黑白扫描;(5)建国(54年以后)档案资料:300 dpi,黑白扫描。

第四部曲:文件存储格式曲。《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTFTXT格式;扫描图像数据采用JPEGTIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储,此格式压缩率高,文件体积小,单个内多页存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。根据我们的实践,一般A4纸张扫描采用200300dpi分辨率,黑白TIFF(G4)格式文件大小为30K,彩色JPEG格式文件大小为200K。根据馆藏实际,我们采用了如下存储格式:(1)民国与1953年以前档案,采用JPEG文件格式存储在数据库中;(21954年以后、1983年以前档案,采用TIFF文件格式存储在数据库中;(31983年以后档案,扫描后通过OCR识别,采用双层PBF文件格式存储在数据库中。

第五部曲:文件命名校对曲。档案数字化加工后扫描件需要命名,为方便查找及记忆,我们采用由“全宗号(3位数)+保管期限代码(1位数)+案卷号(4位数)+文件号(3位数)+页号(3位数)”组成的14位文件命名模式。多页TIFFPDF则采用“全宗号(3位数)+保管期限代码(1位数)+案卷号(4位数)+文件号(3位数)” 11位文件命名模式。比如001(全宗号)-Y(保管期限代码)-0001(案卷号)-001(文件号)-001(页号),或003(全宗号)-Y(保管期限代码)-0001(案卷号)-001(文件号)。同时,我们将案卷封面、卷内目录、备考表以同名图像文件扫描保存,并对扫描过程中出现的歪斜、黑边、命名错误、扫描格式错误、多扫、漏扫、扫描质量模糊等问题一一进行了校对改正。

第六部曲:目录原件挂接曲。馆藏档案数字化的最后一个重要环节,是将纸质档案扫描件数据与相对应的目录数据进行连接,即目录原件挂接。我们以目录数据库为依据,将每一份文件扫描所得的一个或多个图像存储为一份或多份图像文件。将图像文件存储到相应文件夹时,需认真核查每一份图像文件的名称与目录数据库中该份实体的档号或资料编号是否相同。通过每一份图像文件的文件名与目录数据库中该份文件的档号或资料编号的一致性和唯一性,建立起目录数据库与图像数据库相应记录之间的一一对应的关联关系,实现目录数据库与图像文件的挂接。(编辑:李任)

 
 
责任编辑:罗京
 
版权所有,未经许可,不得转载。