新闻中心 > 要闻

国际数字资源长期保存项目综述

作者:钱 毅

来源:中国档案报

2018-05-16 星期三

    互联网的飞速发展产生了海量数字资源。根据2014年“数字宇宙”网站的统计调查,如果将所产生数据量以个人平板电脑的存储量计算,那么2013年全球产生的数字资源总量所需的平板电脑堆叠起来的长度将达到地球到月球距离的三分之二,而到2020年这一长度将是地月距离的6.6倍。但是,与数字资源巨大容量不相适应的是它脆弱的生存能力,数字文件如果得不到有效维护和管理,很容易被破坏或篡改。在此背景下思考与探索如何对数字资源进行长期保存以确保其真实性、完整性、可理解性,早已成为各国档案文献领域共同研究的重要议题。

长期保存理论简析

    从目标上区分,档案保存可以被划分为防护、保管、保存、档案管理、监护等层次,这几个概念之间存在不同程度的叠加关系。传统档案的保护措施主要停留在防护与保管层面,包括对档案实体三要素(载体、字迹及二者的结合方式)的长久性能进行管理,以及对存贮空间的装具环境、库房环境、物理环境(如温湿度、磁场、紫外线、灰尘)、化学环境(如有害气体)、生物环境(如有害微生物)等采取针对性防护措施。“保存”则要求数据始终能够被存取和理解,并不会随着技术的更新而变得不可用,这一点要求对数字资源尤其重要。“档案管理”是在一般性保存活动之上特别赋予档案领域的工作与责任要求,尤其在具体业务环境中与特定职能、归档范围、完整性等工作要求进行融合。数据监护是指在数据产生之时就对数据全生命周期进行管控,确保数据符合当前的应用目的,重视对数据内容关系的管理,包括数据知识产权、数据主权等方面的管理内容。目前有大量数字资源长期保存项目即围绕保存层面展开,定位在保证档案数据的可读性、可理解性和可用性上。

    数字资源长期保存包括两个方面内容,即比特保存与逻辑保存。比特保存主要指在存储载体老化或逐步过时的过程中,或是在经历自然灾害后,人们恢复载体中所存信息的能力,重在解决硬件过时的问题。例如,比特保存需要确保信息在5年之后仍然能被读取。比特保存手段主要在于维持载体可读性,因而围绕载体的技术,如备份、更新、载体迁移可视为比特保存的内容。逻辑保存主要指在未来技术和用户群体变化的情况下,长期确保数据可理解性和可用性,重在解决编码、语法甚至部分语义过时的问题。为此,逻辑保存需要维护数据的背景信息,以便确认其真实性和完整性。

国际长期保存项目发展阶段

    国际上数字资源长期保存的项目发展大体上可分为4个阶段,分别是理论准备期、项目积累期、标准与战略形成期、系统与认证成熟期。

    20世纪90年代可基本视为长期保存的理论准备期。此时“美国记忆”项目开始启动,美国国家档案馆(NARA)专家发表了关于“数字保存”的文章,美国研究图书馆联盟(RLG)出版了《数字影像保存技术》一书,初步探讨了数字保存的概念与初始实践。1996年美国数字归档工作小组发布的《保存数字信息:数字信息存档特别工作组报告》,被公认为是数字保存领域的奠基性文献。该报告提出了一系列保存的技术策略,指出数字资源信息格式的更新换代相较于载体而言是更大的挑战,以及国家层面数字资源保存应当以公益为导向,不能完全交由商业公司进行保存等观念。

    20世纪90年代末到2003年是数字资源长期保存标准与战略逐渐形成阶段。北美地区与欧洲涌现出大批长期保存项目,推动了数字保存研究和实践,其中较为典型的有DIAS数字信息存档系统和欧盟NEDLIB项目等。前者是1998年由荷兰图书馆联合IBM开发的自动化数字资源保存系统,用于电子期刊的长期保存与使用;后者是用于构建欧洲版本图书馆网络的基础结构,保证电子出版物的长期保存和利用。

    长期保存的复杂性使人们认识到仅靠一个组织甚至一个国家的力量都很难完全应对挑战,需要国家、行业、机构层面的组织联盟与业务层面的深度合作,制定核心标准与合作战略是长期保存项目逐渐深入的阶段。

    2002年,由美国空间数据系统咨询委员会最早制定的OAIS开放档案信息系统模型被作为国际标准正式发布,该标准提出的概念框架、功能模型、信息模型被后续多数长期保存项目采用,影响深远;RLG与联机计算机图书馆中心(OCLC)联合发布了《可信赖数字仓储:属性与责任》报告,正式提出可信数字仓储(TDR标准)的概念,由此发展形成的TRAC审计认证体系也在2012年作为国际标准ISO16263发布;RLG与OCLC共同发起了PREMIS保存元数据实施战略计划,定义了一套数字资源长期保存的核心元数据元素,提出了实施保存元数据的具体指导方案;NDIIPP计划是美国在国家战略层面上推进的项目,投入10亿美元用于数字信息基础设施与保存系统建设,所开发的数字保存信息系统、工具和服务形成了覆盖44个州共计185个参与者的合作保存网络;欧盟在其科技框架计划中资助了大量数字保存项目,其中第六框架支持了CASPARE、PLANETS、DPE、DELOS4个项目,前两个项目规模较大,主要针对基于OAIS系统和工具进行测试,第七框架更是将资助项目扩大到18个。

    英国DPC数字保存联盟吸纳了来自图书馆、档案馆、博物馆、出版机构、研究团体以及政府机构的各方成员,为英国数字资源的长期保存构建了良好的合作机制。

    2003年后,数字资源长期保存进入了系统与认证成熟期,许多成熟的数字资源长期保存系统和数字保存认证体系相继出现。许多大型、开源、机构联盟式的数字资源长期保存平台逐渐建立,其中比较有代表性的系统包括LOCKSS、RODA、DAITSS等。LOCKSS系统是由美国斯坦福大学图书馆发布,面向图书馆和出版社的开源数字保存系统,用于实现数字资源的持久保存和获取;RODA系统主要针对档案馆的保存工作,遵循OAIS、PREMIS等多种标准规范,符合TRAC标准,是一个安全、可扩展的数字保存系统;DAITSS系统由佛罗里达图书馆自动化中心开发,该系统最大的不同在于它只提供仓储保存功能,不支持外部用户的直接访问,适用于机构建立基于已有资源环境的保存系统。

    在该阶段,可信数字仓储审计和认证规范开始成熟,成为衡量数字保存质量的重要指标。认证体系方面比较典型的包括美国的TRAC、德国的Nestor和荷兰的DSA认证体系。TRAC审计认证体系是美国研究图书馆联盟与美国国家档案馆工作组起草的数字仓储认证的检查表草案,该认证体系提出了80余条审计准则,所含要素不单涉及技术手段和框架,还包括组织架构、对象管理、财务等内容。Nestor体系与TRAC检查表类似,2006年德国发布了《Nestor准则:可信数字仓储准则目录》,结合本国国情提供了认证实例,内容涵盖了组织框架、对象管理、基础设施等方面。DSA体系由荷兰数字存档联盟主导,自2009年以来成为由多个国际社团参与的国际化认证体系,目前已有30多个数字仓储项目通过了DSA认证。

    总体来说,针对数字保存问题,国际文献领域持续进行了20多年的探索,在理论构建、体系建设、标准制备、开源系统和认证体系方面都取得了大量成果,为破解数字资源长期保存的难题奠定了较好基础。

    原载于《中国档案报》2018年5月14日 总第3219期 第三版

 
 
责任编辑:王亚楠
 
版权所有,未经许可,不得转载。