珠海市档案馆 广东欣档科技有限公司
[摘要]随着新一代信息技术的广泛应用,数字经济、政务服务线上线下一体化等快速发展,使得档案工作环境、对象、内容发生巨大变化,迫切需要创新档案工作理念、方法、模式。珠海市档案馆在总结历年数字档案馆应用实践的基础上,按照档案治理体系、资源体系、利用体系、安全体系建设的总体要求,基于全面国产化环境,利用大数据、人工智能等新技术新手段,从基础设施、应用系统、运行环境、体制机制等方面,推动数字档案馆全面迭代升级。本文以珠海市档案馆为例,探索人工智能在数字档案馆建设中的应用实践。
关键词:人工智能、国产化、数字档案馆、自然语言处理、隐马尔可夫模型、敏感词筛查、智能辅助归档、智能辅助鉴定。
信息技术的飞速发展使得传统的档案管理方式已无法满足现代社会对高效、便捷、智能化的需求。《“十四五”全国档案事业发展规划》指出“加速数字档案馆(室)建设”和“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用,推动数字档案馆(室)建设优化升级”,这是“十四五”期间档案事业发展的重点内容,是推动档案信息化建设再上新台阶、推动档案工作走向现代化的关键。同时,人工智能技术的引入,为数字档案馆建设带来了全新的机遇和挑战。
一、人工智能技术的应用价值
在很多行业和场景中,人工智能的应用可以帮助提高效率、优化流程、降低成本,并推动产品和服务的创新。此外,随着对人工智能技术的深入研究,其核心技术如机器学习、自然语言处理、图像识别等将不断完善,从而推动人工智能向更深层次的发展。
一是有利于提高档案工作智能化管理水平。传统的档案管理工作往往依赖于人工操作,工作重复性较高,存在效率低下、易出错等问题。借助人工智能技术可以高效开展档案的自动分类、整理、存储和检索等,提升档案管理的自动化、智能化水平。
二是助推档案信息的深度挖掘利用。数字档案馆中存有海量档案数据,利用人工智能技术对大量档案数据进行深度挖掘和分析,如通过构建知识图谱,可发现档案中的潜在价值和关联信息,为决策制定、学术研究等提供有力支持和依据。
三是实现档案服务的优化升级。信息技术已经融入群众日常工作与生活,让群众少跑腿、让档案数据多跑路,已成为各级档案部门的共识。运用人工智能技术,构建智能化的档案服务系统,可为各级国家综合馆提供更加准确、便捷、个性化的档案查询和利用服务。
随着大数据、云计算等相关技术的普及和应用,人工智能技术在档案领域的发展前景十分广阔。“人工智能+数字档案馆”的深度融合将驱动档案行业实现持续创新与发展,引领行业迈向更加智能化、高效化的新时代。
二、人工智能技术在珠海市数字档案馆建设中的应用实践
珠海市档案馆自2015年创建成为“全国示范数字档案馆”以来,持续深化应用成效,带动各区全面建成数字档案馆,全市数字档案资源接收、管理、存储、利用水平大幅提升。2021年,在总结历年数字档案馆应用实践的基础上,按照档案治理体系、资源体系、利用体系、安全体系建设的总体要求,基于全面国产化环境,从基础设施、应用系统、运行环境、体制机制等方面,推动数字档案馆全面迭代升级。此次迭代升级,除全面构建了自主可控信息技术体系,还探索将人工智能等新技术新手段运用档案业务实践,赋能档案智慧检索、智能鉴定、自动剪辑、自动归档等业务工作,以科技赋能数字时代档案管理模式提质增效。
2.1人工智能+档案资源建设
2.1.1智能辅助归档
分类与赋予保管期限是档案业务的基础性工作,由于各机关单位档案员人员流动和专业技能的掌握程度差异性较大等原因,归档的准确性也随之波动。通过人工智能技术辅助缺乏经验的档案员开展归档工作,提高归档效率与准确性,具有一定的实用价值。
具体应用流程如下:一是通过OCR(高精度文字识别)进行内容识别,基于自然语言处理(NLP)技术,将电子文件内容进行中文分词处理,同时采用互信息以及信息熵进行词组合并。通过内嵌的归档范围和保管期限表以及在历史数据的基础上形成的学习库,设置权重占比。二是运用隐马尔可夫模型,结合维特比算法,实现电子文件辅助归档。将词组及其权重占比带入隐马尔可夫模型的观察矩阵中,使用维特比算法得出词组序列对应的最可能的保管期限序列,经过权重汇总得出最终预测的保管期限。三是根据责任单位、当前归档时间等信息形成档号,实现电子文件智能辅助归档。
2.1.2新闻视频处理
传统新闻视频处理方式是采集视频后人工进行剪辑、编目、归档管理,工作重复性较高,耗时耗力易出错。珠海市数字档案馆将人工智能技术应用到这种工作中,实现自动处理,人工可仅参与审核、修正,大大减少了工作量,提升了视频处理效率。同时结合语音识别、图像识别技术,将新闻视频数据化,便于检索和利用。
在新闻采集完成后,系统对新闻视频进行全方位感知,包括视觉、音频、文本特征或结果分析
。根据视频中的场景信息、图像信息进行特征提取和分析,进行视频的智能拆分和自动编目,可实现根据新闻事件主题,将新闻视频拆分成独立片段,并自动形成新闻标题,赋予档号。实现新闻视频自动采集、自动整理、自动归档的全流程管理。
2.2人工智能+档案开放鉴定
人工智能应用于档案开放利用能够为解决海量档案的开放审核压力提供全新的思路与方案,为档案开放鉴定工作提供参考辅助,提升档案开放鉴定的工作效率。
珠海市数字档案馆具备档案智能辅助鉴定的功能,对待鉴定档案可提供开放或不开放意见。具体应用流程如下:一是通过OCR(高精度文字识别)进行内容识别。基于自然语言处理技术,进行命名实体识别,用于鉴定范围检测,比如“上级发文”不属于鉴定范围。二是根据系统中建立的敏感词库,运用DFA算法进行敏感词检测。三是进行隐私信息检测。通过自然语言处理技术,检测档案全文是否包含身份证号、手机号等隐私信息,从而预测档案开放情况。
仅2022年,珠海市档案馆依托数字档案馆系统,通过计算机预审和智能化判定,规范高效完成了1993-1998年度约17万件档案开放审核工作,审核量约为往年的4倍。
2.2.1敏感词检测
在档案开放审核中需要用到敏感词过滤来检测档案全文内容中的敏感信息。一般的敏感词检测思路是通过遍历敏感词库,然后筛选出档案全文内容中的敏感词。但是在敏感词库的内容较多时,这样的筛选方式就非常耗时和耗内存,影响到档案业务工作的顺畅开展。珠海市数字档案馆采用DFA算法,在敏感词库的基础上,建立了以敏感词为基础的许多敏感词树,极大地提升了敏感词地筛选效率。
2.2.2结果预测问题
由于在不同的语境下,相同的敏感词可能会形成不同的鉴定结果,因此珠海市数字档案馆采用隐马尔可夫模型以及维特比算法来预测档案开放情况,使得预测结果更加准确。。隐马尔可夫模型是描述两个时序序列联合分布 p(x,y) 的概率模型,主要用于解决预测问题、学习问题和概率计算问题,在很多领域特别是语音识别、自然语言处理等领域都有广泛的应用。维特比算法是一种动态规划算法,通过已知序列,和一些已知的状态转换之间的概率情况,递推计算每个状态结点间路径的最大概率,求得最优路径,从而推断出隐含状态的序列的情况,实现“预测”。
2.3人工智能+档案开发利用
随着计算机技术的普及和发展,档案利用人群对档案检索的准确率、查全率要求越来越高,传统的案卷级和文件级目录检索技术已无法适应当前利用人群的检索要求,档案全文数字化是档案管理发展的必然趋势。珠海市数字档案馆运用语音识别、人脸识别、数据挖掘等技术,构建了基于文书、多媒体、网页等多类型数据的档案全文数据库,进一步加强了档案资源的有效整合与深层次开发。
2.3.1基于深度学习的OCR识别技术
OCR识别能够将图像中的文字信息转换为计算机可处理的文本数据,极大地方便了信息提取和处理过程。传统OCR识别技术受限于传统计算机视觉算法,仅在格式比较规整的印刷文档上表现良好。珠海市数字档案馆采用基于深度学习的OCR,通过神经网络对图像进行深层次的特征提取,即使面对复杂的环境,如不同质量、背景、光照变化、几何变形的图像等,也能产生较好的识别效果,从而提高了识别的准确性,目前印刷体汉字识别准确率达99%以上,手写体识别准确率达90%以上。此外,由于深度学习引擎有GPU并行计算的辅助,其处理速度比传统OCR快得多,能够满足实时识别的需求。
2.3.2图像识别建立人脸库
通过图像识别技术,对图片进行预处理、人脸检测定位、人脸特征匹配等,提取到照片、视频中的人脸,对照片档案及视频档案中的人像进行智能化分类,在局域网内部形成人脸库,方便后期对于一系列的照片和视频进行筛选和整理,也可以通过人名检索或图像检索的方式,快速准确地查找到某人的照片和视频素材,形成人物档案专题,从而提升照片档案、视频档案利用率,让其“活”起来。
三、人工智能+档案工作面临的风险与挑战
3.1应用安全性
档案安全是档案工作的生命线和底线,是档案馆的重要职责和第一要务。档案数据涉及国家机密、商业秘密、个人隐私,在人工智能开放的环境下,务必要保障档案安全性,则后续的一切应用都无法有效实现。在档案管理工作中采用人工智能需提前做好安全评估分析,设定严谨的密级管理和防火墙,提升档案信息安全保障标准,严密防范失泄密风险。通过设置严苛的身份认证、访问控制、安全审计、交换控制等安防技术,分类、分权限提供管理和服务,确保档案数据与信息的安全。
3.2人才支撑
数字档案馆的建设和运维离不开人工智能技术,更离不开人的主导。作为档案工作者,要有危机感,深刻意识到档案工作发生的变化,档案工作不再局限于传统的、机械性、可重复性的工作方式,要及时转变角色,不断提高自身专业能力,学习先进的智能手段,保证各项操作的规范性与标准性,更好地发挥人工智能技术的优势和作用。
四、结语
在大数据与人工智能技术飞速发展的时代背景下,档案管理的载体、手段等都发生了极大变化,对广大档案工作者来说这既是机遇也是挑战。未来,档案管理智慧化是新形势下档案事业发展的必然趋势,档案工作者要积极探索研究,推动“人工智能+档案管理”的深度聚合,充分发掘人工智能的变革性潜力,持续提升档案管理智能化水平,以提供更加优质、高效、便捷的档案服务。
【本文系2022年度国家档案局科技项目“自主可控环境下人工智能技术在数字档案馆建设中的综合应用实践研究”(项目编号:2022-X-085)的阶段性成果】
【参考文献】
[1]陈亮.人工智能技术在智慧档案馆建设中的应用初探——以太仓市档案馆为例[J].档案与建设,2016(7):80-82
[2]陈辉.智能化社会档案价值实现新路径与档案知识体系重构探析[J].档案学研究,2018(4):13-17
[3]朱云辉.人工智能技术在数字档案信息资源分类与检索中的应用[J].资源信息与工程,2018(12):200-204
[4]沈牡丹,范智新.人工智能时代档案工作如何寻求新发展[J].兰台世界,2018(5):77-79
[5]唐建纲. 数字经济环境下会计档案管理存在问题及优化对策[J]. 西部财会,2022,1:24 -28
[6]欧阳慧敏. 基于“互联网 + ”实现公共档案管理服务优化研 究[J]. 办公室业务,2022,1:96 -98