新闻中心 > 环球

积极应对数字归档和长期保存挑战

作者:姚 静 白路浩

来源:中国档案报

2022-11-28 星期一

    2022年6月,国务院印发《关于加强数字政府建设的指导意见》,旨在进一步推动数字政府建设,为人民群众提供更加便捷高效的数字化服务。而开展数字化服务的过程中也将产生更大规模和更多种类的电子档案,这对档案部门数字归档和长期保存的能力提出挑战。《“十四五”全国档案事业发展规划》提出,加快全面数字转型和智能升级,档案工作基本实现数字转型等要求,体现出档案部门在数字环境下的应对之策。如何有效保存数字档案资源、实现长期有效利用,成为学界和业界共同关注的重要问题。

    不仅是我国,数字归档和长期保存已成为国际档案界面临的共同挑战。为应对挑战,美国、澳大利亚、加拿大、英国等国家档案机构实施数字保存战略,发布数字保存框架,积极推进技术赋能。

一、实施数字保存战略

    美国国家档案与文件署(NARA)于今年6月发布了《数字保存战略2022—2026》(Digital Preservation Strategy 2022—2026),将数字保存作为其战略目标之一,持续推进电子档案的可持续访问,做好数字保存的风险规划和控制。具体来说,NARA采用标准和程序文档、制订数字保存计划、设置数字保存优先级、保留元数据、开展组织合作、进行员工培训等关键措施来确保数字资产有效保存,并及时进行灵活的战略调整,以适应存储规模、技术和标准的不断变化,进而降低风险,保持数字内容的可访问性。此外,NARA将通过提升数字保存基础设施、落实数据完整性计划、评估格式和设备可持续性风险等进一步做好数字保存工作。

    为防范化解因软件过时、存储硬件或介质过时或故障、无意或恶意更改内容以及传输时捕获的数字文件和元数据不完整或不足等造成的数字文件无法真实有效访问的风险,澳大利亚国家档案馆(NAA)于2020年6月发布《数字保存政策》(Digital Preservation Policy),要求加强对具有持久价值的数字文件的保护、保存,确保可访问。该数字保存政策既适用于原生数字文件,也适用于纸质文件的数字化副本,提出档案馆应用于数字保存的内部和外部标准,明确数字文件真实、完整、可用、有效保存、维护版权的原则,并对数字文件捕获、存储管理、数字保存方法、保留元数据、数字文件的移交等提出要求。此外,该政策还注重对档案工作人员的技能培训以及在国际社会开展数字保存相关研究和合作。

    由于各种软件、硬件和操作系统容易受到技术过时、载体劣化的影响,加拿大图书档案馆(LAC)于2017年11月发布了《数字保存计划战略》(Strategy for a Digital Preservation Program),后于今年8月对该战略进行了修订并重新发布,以确保加拿大文献遗产的长期保存和可用。该战略符合国际标准ISO 14721:2012,即开放档案信息系统(OAIS)的参考模型,并使用OAIS参考模型来定义其数字保存计划的范围。该战略要求数字保存人员必须进行主动监控和干预,以保护数字遗产内容不会因技术过时而无法访问,并希望到2024年能够达到可信赖数字存储库审核和认证的可持续数字保存计划的要求。

    可见,为防范因设备、软件过时或存储介质故障等造成的无法访问和利用的风险,美国、澳大利亚、加拿大均实施了相应的数字保存战略,在战略中都注重风险监测和标准制定,并强调保存好数字档案资源。其中,美国和澳大利亚还专门将工作人员的培训纳入数字保存战略之中,并重视与国际社会的交流合作。需要注意的是,制订数字保存战略计划不仅要在战略计划中做好标准设计和元数据管理,保障数字记录的真实性、完整性、可用性、安全性以及知识产权的保护,积极与其他机构开展合作交流,还应加强数字保存风险评估的研究,制定风险评估方案,为数字保存战略计划的实施打好基础。同时,还需加强对档案工作人员数字保存能力的培训,考虑在档案专业教育中设置相关课程提高学生的数据素养,培养数字保存的专业人才。

二、发布数字保存框架

    NARA发布的数字保存框架描述了其保存馆藏684种文件格式的最佳实践,其中一些可以追溯到50年前首次向NARA传输的电子文件。该框架还包括对特定文件类型的风险级别评估和如何进行处理的建议。通过该框架,档案管理员可以提前对数字文件进行规范管理,且可以对不在NARA移交指南范围内的文件格式如何归档保存提出意见建议。

    今年8月,NARA第一次将其数字保存框架作为链接开放数据集(Linked Open Dataset)提供访问和使用,旨在与世界各地的数字保存专业人员共享NARA的研究成果。链接开放数据是一种以机器可读方式发布数据的方法,允许通过链接到其他组织发布的直接相关资源来丰富数据、建立联系。该数据集相较于之前的GitHub版本的数字保存框架,可以更方便地应用到多个现有的社区资源中。

    NARA制定数字保存框架并通过链接开放数据集的形式开放利用,指导如何对馆藏684种文件格式的数字档案资源进行有效保存,是一大创新性举措,有利于不同的档案形成机构便捷地采用同一标准进行数字档案资源的组织和维护,能够有效提升资源的组织效率和标准化程度。

    可见,在发布统一的数字保存框架前,结合数字档案管理实际,梳理各种格式数字档案保存的最佳方式,将其整合到数字保存框架中,并对特殊格式数字档案的保存方法加以示例,方便各档案形成机构采用统一的标准框架进行数字档案的组织和维护,是能够明显提升数字保存框架移植复用效率的好做法。

三、技术赋能数字保存

    英国国家档案馆(TNA)于2021年10月发布了名为《在政府中使用AI进行数字选择》(Using AI for Digital Selection in Government)的报告,展示其数字保存团队应用人工智能进行数字保存的成果。报告提到,政府的数字化转型带来了公共文件的规模扩大和种类增加,同时降低了对数据组织和结构的重视,使得为纸质档案设计的档案管理工作流程无法胜任公共文件数量、多样性、复杂性和分布性带来的挑战,为此,TNA数字保存团队探讨了人工智能(AI)技术协助应对上述挑战的可能性。其对Adlib Elevate、Amazon Web Services、Microsoft Azure、Iron Mountain的InSight和RecordPoint的Records365这5个人工智能供应商技术平台进行了评估测试,发现虽然人工智能不能完全替代档案管理员的专业知识,但商业上可用的人工智能技术可以成功地应用于半结构化档案数据的鉴定中,能够减轻档案人员进行鉴定的工作量,提升档案鉴定的效率。但鉴于档案数据的特殊性,要将人工智能真正应用于政府档案数据的鉴定和处置尚需更为深入的研究。

    随着新技术的应用和数字政府建设的推进,数字文件的类型和数量已呈激增态势,积极应用人工智能进行数字档案的鉴定,通过使用部分开放的档案数据训练人工智能模型,不断进行升级调优,在反复验证后投入使用,提升档案鉴定效率是档案部门的有益尝试。当然,在使用中也应辅之以档案工作人员的判断和审核,以确保鉴定的质量。

    原载于《中国档案报》2022年11月28日 总第3913期 第三版

 
 
责任编辑:崔珍珍
 
版权所有,未经许可,不得转载。