新闻中心 > 要闻

提升数字档案馆智能水平 打造档案馆AI大脑

——基于辽宁省档案馆相关实践的总结分析

作者:李映天

来源:中国档案报

2023-06-12 星期一

    如何打造现代化、高水平的数字档案馆,从而进一步激发档案信息化助推档案事业高质量发展的强劲动能,更好地服务党和国家工作大局、服务人民群众,是档案界共同关注的话题。本文基于辽宁省档案馆的相关实践,介绍其统筹推进数字档案馆建设的方法和经验,特别是在人工智能应用方面所作的一些努力和尝试。

    从2021年起,辽宁省档案馆着力在基础设施、系统功能、数字资源、保障体系和服务绩效5个方面深耕细作,打造了功能完备、性能优化的数字档案馆系统。同时,紧紧围绕理念创新、机制创新、应用场景创新,不断提升数字档案馆系统智能化水平。该系统建设颇具辽宁特色,概括起来即为“两高一低两化”。“两高”指的是高智能、高性能,主要体现为不断深化智能化场景应用,提升千万级数据检索性能;“一低”指的是低代码开发,主要体现为系统可扩展性强,能够灵活定制业务流程;“两化”指的是安全化、平台化,主要体现为构建“两地两库三巡检”长期保存机制,搭建数字档案馆智能监管平台。

    一、多维度打造智能化应用场景

    1.“智能+档案筛密”助力档案安全保密工作提质增效

    数字资源筛密指的是应用一定技术手段,在纸质档案数字化成果中甄别、筛查出涉密档案,并按照相关保密规定进行安全管理的过程。这是贯彻落实保密法和档案法的一项重要举措。就辽宁省档案馆来说,其馆藏档案资料171万卷,数字化率92%,数字资源数量1.08亿画幅。数字资源总量庞大,时间跨度长,密级字样种类繁多,且标注位置不统一,凭借人工逐页完成筛查的难度可想而知。以档案数字资源总量100TB测算,按人工每人每天筛查1000画幅左右,那么至少需要10人连续工作50年才能完成遍历式筛查。

    为解决这一问题,辽宁省档案馆开发了基于档案数字资源的智能筛密系统,初期选取5000件带密的档案原文,对涉密印章、油印字样、繁体字样及手写字样进行标注,然后选取80%样本作为训练数据集供模型学习,再用20%样本进行算法验证。

    具体做法是通过目录检索将目录中密级字段为“秘密、机密、绝密”的档案筛出来,然后对密级目录为“非密”或为“空”的档案进行智能筛密。辽宁省档案馆选取2000年后、1977—1999年、1944—1966年3个不同时间段的数字档案进行筛密鉴别,历时25天完成2000年后以打印体为主的250多万画幅筛密任务,筛出43万画幅,核验确认417件;历时86天完成1977—1999年密级标识为打印体、印章等多样形式的770多万画幅筛密任务,筛出188万画幅,核验确认4855件;历时7天完成1944—1966年密级标识手写体居多、印刷体量少的61万多画幅筛密任务,筛出18万画幅,核验确认1356件。这3个不同时间段数字档案智能筛密平均准确率为80.36%,随着机器训练的不断深入,筛出率和准确率还在不断优化。

    2.“智能+档案鉴定”推动开放审核业务提档加速

    传统的档案鉴定模式是通过人工检查档案目录及原文是否存在敏感词的方式进行。“智能+档案鉴定”模式则是通过大量的实践积累,建立多级敏感词库的做法来完成。辽宁省档案馆构建多维语义理解算法模型,突破单一的字词匹配模式,从档案目录敏感字段以及档案内容的敏感词、敏感语句、敏感图像等多个维度进行语义理解,实现AI赋能档案鉴定工作。

    辽宁省档案馆采用的智能辅助鉴定系统经过两次升级。初期是将智能鉴定功能嵌入数字档案馆系统的鉴定模块内,通过档案目录中的敏感词进行智能分析,给出AI预测值和敏感度,作为人工鉴定的参考,目前已完成44个批次200余万件档案辅助鉴定工作。之后,辽宁省档案馆与中国人民大学档案学院合作升级了这项功能,让它独立于数字档案馆系统。在近期对1970—2000年5个不同全宗600卷1.3万件档案进行智能鉴定中,该功能表现良好,1天就完成了计算机初审鉴定工作,给出了鉴定意见,经过复审核查,准确率达85%以上。

    3.“智能+档案编研”使编研工作变被动为主动

    编研工作的重点和难点在于对编研素材的分析和找到素材中的人物关系、事件关系和时间关系。知识图谱的应用恰好能通过AI推理分析,挖掘出知识之间的关联、规律和趋势,从而实现自动化的知识推断和决策。可见,通过定制编研任务、固化编研模式,推动编研成果以知识图谱的形式展示,能够提升编研工作的效率,使编研成果更加多元化、形象化、具体化。

    在这方面,中国人民大学档案学院进行了有益探索,希望有机会与其开展合作,共同打造高阶多维化的利用体系平台,利用知识图谱做好档案编研工作。

    4.“智能+利用服务”丰富档案检索手段

    智能检索主要体现在两个方面:一是基于AI语义解析和大数据技术的智能推送体验,能够根据原文的相似度和利用者历史查档行为进行自动分析,智能推送相关档案内容;二是通过“以人搜照片”和“以人搜视频”功能,丰富档案检索方式。

    这一技术有效帮助辽宁省档案馆开展照片及音视频档案目录整理工作。许多年代久远无法考证的馆藏老照片通过这项技术找到了出处,为此后的分类、整理、鉴定、利用扫除了障碍。

    二、着力破解大体量数据资源管理难题

    辽宁省档案馆馆藏数字档案资源体量大,数字资源总量已超过140TB。如何破解大体量数据管理的难点问题?如何提升大体量数据系统的效率?从辽宁省档案馆的实践中,我们可以总结出3个方面的经验。

    首先,树立大档案思维。面对如此庞大的数据量,在规划时应树立大档案思维,充分考虑现有数据的存量以及未来数据的增量,在设备选用、软件设计、数据库建设等方面进行前瞻性规划和部署,充分考虑未来数据量的增长和应用系统的扩展。

    第二,引入大集成理念。目前,辽宁省档案馆数字档案馆系统中的1000余万条目录、1.08亿画幅原文只是存量档案数字化后的数量。近年来,随着数字辽宁等战略的深入推进,一体化政务服务平台、全省协同办公平台产生了大量原生电子文件,可以预见的是,今后需要归档的原生电子文件数量将持续增加。为此,辽宁省档案馆引入大集成理念,在政务外网云平台部署省直机关电子档案一体化集中管理平台、电子档案接收平台、馆际共享平台;在局域网部署数字档案馆系统、辅助库房管理系统、长期保存系统等;在因特网部署网页信息采集系统、电子阅览室系统等。

    第三,加强新技术应用。新技术给档案管理带来了便利。如,通过提高虚拟服务器配置,能够提升系统的运算处理能力;通过数据压缩技术能够降低存储成本;通过并行查询、智能缓存和索引技术能够提升数据查询速度。目前,辽宁省档案馆数字档案馆系统实现了千万级数据的秒级查询。经过实测,目录检索时间不超过5秒,原文检索时间不超过20秒。

    三、构建“两地两库三巡检”长期保存机制

    档案数字资源的长期保存是提升档案安全性的关键。从行业情况看,档案馆大多采用单库单套的长期保存方式。辽宁省档案馆结合自身的特点,构建了“两地两库三巡检”长期保存机制。其核心是将两套保全库分别部署在省档案馆和距沈阳160公里的抚顺市新宾县的异地备份中心,与管理库实现两地双向文件同步。

    “两库”是指档案数字资源长期保全系统中的两套档案数据保全库;“两地”是指省档案馆、电子档案备份中心两地各保存一套保全库;“三巡检”是本地生产库自动巡检、本地保全库巡检及异地保全库巡检。长期保全系统实现对长期保存的档案数字资源库的自动安全巡检、及时预警,并可实现在线恢复、实时保全。

    四、建设数字档案馆智能监管平台

    利用大数据可视化技术,以“模拟驾驶舱”的形式对数字档案馆系统的业务和安全进行全流程监管和可视化展现,通过智能监管平台形象化、直观化、具体化地反映数字档案馆的运行状态,是辽宁省档案馆数字档案馆系统的一大特色。

    在监管中,主要利用4块屏幕分析档案数字资源的活跃数据和稳定数据。第一块屏幕是数字档案馆运行的综合展示,是对档案接收情况、数据容量、库房及机房环境进行的综合监管。第二块屏幕是数字档案馆业务监管平台,是对数字档案馆“收、管、存、用”各环节业务进行的全过程监管。第三块屏幕是中心机房及库房环境监管平台,是对机房和库房环境进行的监管,包含温湿度监管和视频监管两个方面。第四块屏幕是数字档案馆系统日志监管平台,记录动态监控系统的登录情况、审计情况,并对其进行统计分析,通过图表方式进行展示和预警。

    智能监管平台是数字档案馆运行的中枢系统,利用这4块屏幕能够分析出档案数字资源的活跃数据和稳定数据,以此制定不同的长期保存和备份策略。如,通过利用数据的变化情况,能够掌握一段时期内查档利用需要,从而有针对性地开展全文识别和转换工作。又如,通过实时观测各项业务工作运行情况,能够动态掌握档案数字资源的保管情况。

    在数字档案馆建设过程中,有3点经验值得总结。一是广应用。无论是基础功能的拓展,还是智能技术创新,究其根本,应用才是硬道理。只有深度广泛应用,才能推动传统档案基础业务工作向现代化工作模式转变。在数字档案馆建设过程中,馆内各部门以“应用尽用、系统留痕、数据积累”为原则,实现档案工作“收、管、存、用”全流程闭环管理,所有业务流程都纳入数字档案馆系统进行体内循环。二是善分析。这里讲的“分析”是指数据分析,明晰本馆数字档案资源的来源、构成、状态等应该成为档案信息化工作人员的必修课。学会分析数据,才能找准解决问题的切入点,进而让人工智能等新技术发挥最大效能。三是勤沟通。全国一盘棋,档案一家人。数字档案馆的建设不可能一蹴而就,而是日就月将。辽宁省档案馆在数字档案馆建设过程中得到了国家档案局的悉心指导和兄弟省市的慷慨赐教。下一步,辽宁省档案馆将不断完善数字档案馆系统,进一步丰富智能化应用场景,向建设智慧型数字档案馆这一更高目标迈进。

    (本文据第二届档案事业发展学术交流会主题报告摘编)

    原载于《中国档案报》2023年6月8日 总第3993期 第三版

 
 
责任编辑:实习编辑 阮伸伸
 
版权所有,未经许可,不得转载。