新闻中心 > 要闻

数字技术赋能档案资源开发

作者:靳文君

来源:中国档案报

2022-12-28 星期三

    满足用户档案信息需求是档案事业发展进程中虽老生常谈但永远重要的话题。《“十四五”全国档案事业发展规划》显示,“十三五”时期,我国档案公共服务能力持续提升,全国档案馆共有开放档案17659万卷(件)。

    在数智转型时代,大数据、人工智能、云计算、区块链、移动互联等数字智能技术全方位、全领域渗透各行业,档案用户不仅需要便捷、高效、多样的传统档案公共服务体验,还期待精细化、个性化、知识化、可视化的拓展性档案信息内容服务体验。用户更高阶且更智慧的档案服务体验离不开档案资源从模拟态向数字态和数据态的转型,更与大数据、人工智能、数据挖掘、语义分析、数字人文等技术对档案资源开发的深度赋能密不可分。《“十四五”全国档案事业发展规划》明确提出,积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用。由此可见,如何应用技术更好地赋能档案资源开发,是未来5年乃至更长时期我国档案机构需要高度关注的问题。

    “赋能”即赋予能量,使事物发生正向、内在的改变。“赋能”的关键在于以主动姿态深度融入并取得显著成效。数字技术之所以能够赋能档案资源开发,主要有以下两个方面原因:一是数字技术能够融入档案资源开发全过程,应用数字技术可以将模拟态、数字态的档案资源转化为计算机可识别的知识单元;二是数字技术可以对档案数据进行提取、重组、关联可视化,在数字化、知识化、语义化基础上为用户提供可视化、故事化的档案服务体验。

    如今,数字技术赋能档案资源开发的实践不断深化,引发了档案资源开发思维、内容、方式及方法变革,甚至可以说,数字技术在某种程度上重构了档案服务的格局,使基于档案数据资源开发的档案知识服务成为可能。

    如何以主动姿态应用数字技术赋能海量档案资源开发,释放档案资源的多样价值,彰显档案资源的综合贡献力,更好地为国家各项事业发展提供优质高效的档案服务,值得档案部门深思。

    当前,国内外不少学者关注应用数字技术开发档案资源,助推档案资源智慧化转型的问题,如应用元宇宙技术赋能数字档案文创开发、应用可视化技术助力乡村档案文化价值呈现、技术赋能文化遗产档案智慧数据资源进行数据建模、数字人文赋能档案文化遗产活化保护、依托新兴技术赋能抗疫档案多维叙事、数字赋能非物质文化遗产档案资源整合、应用新媒体技术助力工业遗产档案开发等,为科学应用数字技术赋能档案资源开发提供了理论指导。但现有研究多基于“技术助力”视域,较少关注技术应用与档案资源开发的适配性及应用技术赋能档案资源开发的效能,需要档案学界进一步拓深现有研究,加强对应用技术赋能档案资源开发实践的科学指导,形成理论源自实践又指导实践的良性循环。本文立足文献检索和网络调研,从合作融入和效能优化两个视角梳理国内外档案馆应用数字技术赋能档案资源开发的相关实践,并介绍阐释其经验。

一、合作融入数字技术,注重档案资源的数据化

    数字技术赋能档案资源开发的基础在于将多源异构的档案资源数据化,特别是将数字档案资源转换为可供计算机阅读、分析、处理、理解的档案数据资源,这是档案资源向语义化、智慧化进阶的关键。但由于数字技术本身准入门槛较高,且不少档案部门缺乏复合型档案资源开发人才,目前国内外档案馆多采用合作的方式应用机器学习、人工智能、数字人文等数字技术赋能档案资源开发。典型案例如下:

    荷兰阿姆斯特丹城市档案馆与READ项目及其Transkribus平台合作,利用机器学习技术转录手写档案。其原理是利用50页至100页已被转录的手写档案训练模型成熟度,再将不同语种的档案信息与机器学习到的内容进行比对,自动生成转录结果,有效帮助研究人员更便捷地从数十亿页档案中检索到关键词或短语,甚至可以与“欧洲时光机”(European Time Machine)项目连接。接下来,该档案馆还计划合作开发算法,进一步挖掘档案数据中的历史社会模式、人际关系网络等有效信息。

    2013年,威尼斯档案馆、瑞士洛桑联邦理工学院、威尼斯大学合作开展了“威尼斯时光机”项目,通过将大量威尼斯档案进行大规模数字化扫描、自动化文本转录识别、图谱式关联离散数据、模型化构建新知识体系,展示威尼斯近2000年来的历史演变。

    2018年,我国安徽大学档案馆与中国人民大学档案学院数字人文技术实验室、Web开发实验室合作采用文本挖掘技术提取档案文本和图片中的本体,在此基础上采用时间瀑布流的方式组织和呈现档案数据,依此建设安徽大学数字记忆网。

    以上案例表明,数字技术得以赋能档案资源开发的关键在于其可以将海量数字档案资源数据化,进而为资源语义化、知识化奠定基础。

    当前,合作利用数字技术赋能档案信息资源已成为普遍态势。档案部门需要加强主动性,加大应用数字技术赋能档案资源开发的力度,将档案数据资源全方位融入国家治理中。同时,需要保持理性,明确不同数字技术赋能档案资源开发的技术逻辑,在具体实践过程中审慎处理技术赋能档案资源开发过程中的伦理问题,采取有效措施规避档案数据泄露、篡改等风险。

二、集成多种数字技术,提升用户档案服务体验感

    从数字技术应用方式和效能看,当前国内外档案部门比较注重技术应用的系统性与集成性,既避免因资源开发与技术应用的浅层叠加或即时应用而耗费人力和资金成本,又可以提升用户档案服务的体验感。

    如,国际残疾人奥林匹克委员会与技术媒体公司合作使用AI技术逐帧分析和标记残奥会档案,创建组织有序、数据丰富的数据库并提供个性化的搜索体验,帮助公众更便捷、更高效地访问残奥会音像档案。我国“青岛啤酒时光机”项目在前期收集档案资源形成档案数据的基础上,中期利用数字化扫描、数据预处理技术和资源组织、关联技术,深度挖掘档案数据,实现档案内容细粒度关联,建立员工关系网络、产品关系网络等数据知识网络,后期还利用可视化工具、3D建模等技术,通过知识网络展现青岛啤酒厂的演变历程,还原员工工作的真实场景,为用户提供强沉浸感的档案服务体验。我国北京记忆项目从人文与艺术的审美视角出发,综合运用数据库技术、网络技术、多媒体技术、移动通信技术、ISLI/MPR复合数字出版技术、GIS(地理信息系统)技术、3D技术等现代数字技术,通过对档案文化资源的选择、诠释和再现,面向公众构建可视化展示与互动平台,展现信息时代的北京城市记忆。

    在某种程度上,数字技术与档案资源开发具有“双向赋能”的特点:一方面,数字技术助力实现档案资源内容自动化识别、规模化分析、可视化呈现,适应当前挖掘档案资源文本内容价值为不同用户提供数字化、知识化、可视化档案服务的现实需求;另一方面,海量档案资源可以为数字技术提供独特的应用场景,赋予数字技术以人文温度,使数字技术在具体应用场景中实现迭代升级。

    要实现“双向赋能”,需要以用户为中心统筹谋划技术赋能档案资源开发的全过程。一方面,要基于价值共创理念,制定数字技术赋能档案资源开发的顶层战略,细化有关数字技术赋能档案资源开发的法规条文;另一方面,要构建前期资源共享整合、中期数据结构化、后期数据知识化和可视化的以用户需求为中心的数字技术赋能档案资源开发路径,有效控制技术赋能档案资源开发利用的成本和效益,避免重复、盲目开发档案资源。

    原载于《中国档案报》2022年12月26日 总第3925期 第三版

 
 
责任编辑:实习编辑 阮伸伸
 
版权所有,未经许可,不得转载。