基于本体的高校档案知识库的构建研究

(整期优先)网络出版时间:2014-03-13
/ 4

基于本体的高校档案知识库的构建研究

黄猛陈超傅杨武

——以重庆三峡学院为例

黄猛陈超傅杨武

提要|在知识经济时代,基于知识的管理早被学者提到档案管理的前沿,本体在知识管理中扮演重要的作用。利用本体技术来构建档案领域知识模型,这将为档案领域知识的管理、共享和重用夯实了基础。本文主要利用现有的本体技术来构建高校档案领域本体,将为高校档案领域的知识共享和重用提供有益的实践。本文主要研究以下内容:一是研究了基于本体的相关理论;二是研究了构建本体的比较成熟的一些工程方法。并借鉴这些方法的思想和根据高校档案领域实际情况,提出本文构建档案领域本体的方法;三是利用上述提出的方法构建高校档案领域本体,重点构建了档案收集本体、档案整理本体、档案术语本体;四是利用了斯坦福大学开发的本体编辑软件Protégé实现了高校档案领域本体的构建。

关键词|档案管理知识管理本体Protégé

中图分类号|G647

作者信息|黄猛,男,计算机硕士,重庆三峡学院档案馆馆员,主要研究方向办公自动化与数据库,大数据分析,分布式计算与语义网,档案信息化管理,404100;

陈超,男,硕士,重庆三峡学院档案馆馆员,主要研究方向档案管理,404100;

傅杨武,男,博士,重庆三峡学院档案馆馆长,教授,404100。

1引言

本体起源于哲学,古希腊哲学家亚里士多德将本体定义为:对世界的本原或基质进行探究,即存在论。后来,人们将这一概念引入到人工智能、信息系统和知识系统等领域。本体作为一种能够在语义和知识层次上描述信息的概念模型建模工具,自提出就引起众多学者的关注,并在多个研究领域里得到应用,如知识管理、图书与情报学、信息检索、语义WEB等。目前,国内外的学者把本体技术应用到信息系统的开发中,使得本体技术走到了现代信息管理的前沿。

随着知识社会的到来,基于知识的管理,是当前数字档案更高层次的应用。档案资源数字化为知识管理打下了基础,但是那些缺乏语义的、分布的、异构的信息也阻碍了知识管理系统的构建。采用基于本体的技术可以对上述情况给予很好的描述,从而为信息的组织、管理及检索提供模型和方法。如今,随着本体理论与技术的完善和发展,将它引入到数字档案的建设中,这将给数字档案的发展带来新的契机。

2本体理论

Ontology这个哲学范畴,被引入到人工智能领域,从而给与它新的定义。1991年Neches等人最早给出Ontology的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义”[1]。

比较流行的一个定义是,1993年Gruber将Ontology定义为“概念模型的明确的规范说明”[2]。1997年Borst进一步完善为“共享概念模型的形式化规范说明”[3]。Studer等人对上述两个定义进行了深入研究认为Ontology是“共享概念模型的明确的形式化规范说明”,这也是目前对Ontology概念的统一看法。

Studer等人对Ontology定义包含四层含义[4]:

概念化(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)。“概念化”是指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态;“明确”是指所使用的概念及使用这些概念的约束都有明确的定义;“形式化”是指Ontology是计算机可读的,也就是计算机可处理的;“共享”是指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而非个体。Ontology的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

3构建领域本体必要条件

构建领域本体是一项系统的工程。要构建合适的领域本体,必须要有正确的本体工程的开发思想作指导并采用合适的开发工具。我们认为构建档案领域知识本体至少需要以下四个方面的准备。

3.1本体形式化语言的选择

在实际的应用中,Ontology的表示方式可以多种多样,主要可分为4大类[5]:非形式化、半非形式化、半形式化、形式化语言。形式化语言对利于本体的描述,目前的形式化的本体描述语言非常多,主要有RDF、RDF(s)、OIL、OWL、KIF等。经过比较筛选,我们选择对本体模型表达力较强的OWL语言。

OWL[6~8]语言是W3C的Web本体工作小组开发的本体描述语言,它是在DAML语言和OIL语言的基础上发展起来的,也是W3C推荐的标准本体描述语言。OWL语言是基于描述逻辑而建立的。这就意味着基于描述逻辑的OWL的类构造算子和公理都有相应的逻辑描述表示,这样利用OWL构建的领域知识本体具备良好的对模型的表现能力和对知识的推理能力。这样更利于计算机对知识的自动处理。

3.2本体开发工具的选择

本体开发工具有很多种,每种开发工具都有各种的优缺点。我们比较后在工作中采用了斯坦福大学开发的开源且免费的本体编辑软件Protégé。

Protégé[9]是一个免费和开源的、基于java的、通过插件机制可扩展的软件平台,它能够构建领域本体模型和开发基于知识的应用。Protégé建立的本体能够通过多种形式输出,能够支持基于RDF(S)、OWL和XMLSchema等形式输出,还可以将本体保存在关系数据库中。Protégé提供了用于知识建模的丰富的插件,可以用来创建、可视化、操作和管理本体,并支持多种方式来表达本体。该软件能够定制以便更友好地创建知识模型和数据。更加灵活的是:该软件能够通过插件体系结构和基于Java的应用程序接口来扩展,以便能够建立基于知识的工具和应用程序。

3.3确立建立本体工程的方法

目前,本体的构建多数还是采用人工的方法,自动或半自动构建还很少。在构建本体的过程中,不同学者在不同的专业领域的实践过程中,产生了不同的本体构建方法,这些方法至今没有形成统一的标准。比较常见的方法有如下几种[10~14]:IDEF-5方法、骨架法(SkeletalMethodology)、企业建模法(TOVE)、METHONTOLOGY方法、斯坦福大学医学院开发七步法。

在计算机领域引入本体的概念,最终目的是能够让计算机能够充分理解语义信息,以至于更加智能的为人类服务,从某种意义上说,这是一类新的软件活动。因此,在研究本体建设的过程中,应该充分地借鉴软件工程多年来的经验。本文在参考骨架法、METHONTOLOGY和七步法的基础上,结合高校档案领域的特点,形成自己开发流程。其流程如下:

图1构建高校档案领域本体方法

3.4领域专家的参与

领域本体构建是本体开发人员与领域专家共同努力的结果。构建本体的过程中,需要有专家的参与,笔者在档案管理一线工作了10年时间,熟悉了高校档案的管理,同时,还邀请档案馆的老专家和处在管理一线工作的其他同志共同参与,他们为这次本体的构建给出了许多建议和指导。

4高校档案领域本体的构建过程

4.1需求分析

高校档案具有相对独立的分类方案,国家档案局在1995年根据高校档案工作的特点,在充分反映高等学校档案的形成规律和内容、特点的前提下,把同一门类档案的管理性和业务性材料集中在一起,确定统一的高校档案实体分类体系。在《高等学校档案实体分类法》[15]中,高校档案共分为党群、行政、教学工作、科学研究、产品生产与科技开发、基本建设、仪器设备、出版、外事、财会、声像、实物等十二个大类。这些大类下面又分成二级小类。例如党群类又次分成党务综合、纪检、组织、宣传教育、统战、工会、团委;行政类分成行政综合、人事、监察审计、武装保卫、总务、档案、图书、文博;教学工作类分为教务综合、学科与实验室建设、招生、学籍管理、课堂教学与教学实践、学位、毕业生、教材。

高校档案涉及了高校管理过程中的方方面面的工作材料。因此,具有其概念多,分类多,实例多,许多概念关系比较复杂的特点。

本文以重庆三峡学院的档案管理为例构建本体。遵循了档案管理中档案鉴定、档案收集、档案整理、档案保管、档案保护、档案检索、档案查阅利用、档案编研这个过程。并根据实际用户需求,只选取了档案管理工作中的档案收集、档案整理、档案保管与保护等进行本体构建。

通过调研分析后,本文总结了本体主要能够解决的部分问题如下表:

问题所属领域问题描述

档案收集档案馆、档案室或者具有归档资格的职能部门接收及征集档案和其他有关文献的活动。

1机构的归档材料范围是哪些?

2归档范围内的档案材料的保管期限是什么?

3不归档材料的范围是哪些?

4档案管理员如何进行准确的预立卷?(即档案管理员知道归档材料所属档案实体分类、保管期限和案卷级档案号的制定)

档案整理按照一定原则对档案实体进行分类、组合、排列、编号和基本编目,使之有序化的过程。

1有哪几种类的档案整理方法?

2档案整理总的质量要求是什么?

3归档文件如何装订?

4归档文件如何分类?

5归档文件如何排列?

6归档文件的编号有何规定?

7如何编制归档文件目录?

8归档文件如何进行装盒?

9卷内备考表如何填写?

表1问题描述

4.2本体知识的获取与收集

在构建本体的过程中,考虑了用户的需求和成本(主要是人力、物力、时间等),我们的知识来源一部分是书籍,一部分是相关的法律法规,还有部分来自互联网。主要选取了国家档案局发布的档案工作行业标准和档案工作国家标准以及重庆市档案局发布的市级档案行业的法律法规[16]、《高等学校档案实体分类法》、《档案工作基本术语》[17]、《普通高等学校档案管理办法》[18]、《高等学校档案实体分类法》[18]、《重庆三峡学院档案实体分类方案》[18]、《重庆三峡学院档案分类归档范围和保管期限表》[18]、冯惠玲编著的《档案学概论》[19]等等。

4.3建立核心概念与概念的类层次

我们根据所定义的需求,在参与人员的共同努力下,确定了三个顶层概念为:人物、机构、档案。在档案的概念分类成档案基本术语、档案管理、档案法规、档案馆建筑等。在档案管理下面分为档案鉴定、档案收集、档案整理,档案的保管与保护等。

4.4本体概念间的属性和关系

确立了概念及其层次就建立了本体的框架,只有通过概念的属性和关系才能丰富本体的知识表达能力。在明确概念的分类后,就要确定类的属性及其属性特征,主要区分类的属性的类型、属性的特征、属性的约束、属性的定义域和值域。属性的类型主要是对象属性和数据属性。属性的特征主要有逆转属性、函数属性、逆转函数属性、对称属性、传递属性等。确定并完善概念间的属性就能够更加丰富概念之间的语义关系。

例如在档案收集的本体构建过程中,档案管理员主要了解的其所在机构的归档范围和不归档范围,以及归档材料的保管期限的划分。该过程中涉及的主要概念是归档材料、不归档材料、保管期限、机构、分类号、高校档案实体分类类目(一级类目和二级类目)。其下表是重要类及其关系的叙述。逻辑表达是用描述逻辑语言来表示。

表2重要类及其关系描述

4.5本体实例化

本体实例化就是给出类的实例。下面是我们在构建档案收集本体过程中对本体实例化的例子。下图是在可视化本体编辑软件Protégé下实现类的实例化表示。

图2类的实例表示图

5本体的存储

前面我们已经通过本体技术对高校档案领域知识进行了有效管理,最后需要把这些知识进行存储。目前,RDF和OWL数据存储基本上有二种方案:RDF/OWL文件形式和关系数据库存储形式。对于那些简单、实例数据不大的本体,用RDF/OWL文件的形式存储是一种可行的方式。具有大量实例数据的中大型本体,需要利用关系数据库来存储是一种比较合理的选择。

本文研究中,开始收集的档案领域知识比较少,为了存储的方便,就直接用文件形保存。但是随着后续工作的开展,本体的进化需要越来越多的领域知识作为基础,利用关系数据库或者其他更加有效的方法进行存储是必然的选择。

6结论

在本文中,主要介绍了基于本体的高校档案领域知识的构建工作,总结了项目实施的经验和对本体构建中一些问题的思考。虽然本体在信息管理领域是研究热点,但是利用本体技术来构建档案领域知识,国内档案方面的学者对此研究还比较少。我们利用本体的思想和方法来组织高校档案领域知识,构建面向语义的高校领域本体库是在档案信息化研究领域里一次非常有意义的尝试。当然,我们的研究中也还存在一些不足,需要进一步的深入研究和完善。希望我们在该项目上所做的工作能够对大家有所帮助,也衷心希望与国内档案界的同仁交流经验、相互学习。

参考文献:

[1]NechesR,FikesRE,GruberTR,etal.EnablingTechnologyforKnowledgeSharing[J].AIMagazine,1991,12(3):36-56.

[2]GruberTR.ATranslationApproachtoPortableOntologySpecifications[J].KnowledgeAcquisition,1993,5:199-200.

[3]BorstWN.ConstructionofEngineeringOntologiesforKnowledgeSharingandReuse.PhDthesis,UniversityofTwente,Enschede,1997.

[4]邓志鸿,唐世渭等.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5).

[5]UscholdM.BuildingOntologies:TowardsAUnifiedMethodology[J].Inexpertsystems96,1996.

[6]DeborahL.McGuinness,FrankvanHarmelen.OWLWebOntologyLanguageOverview[EB/OL].http://www.w3.org/TR/2004/REC-owl-features-20040210,2010-11-10.

[7]MichaelK.Smith,ChrisWelty,DeborahL.McGuinness.OWLWebOntologyLanguageGuide[EB/OL].http://www.w3.org/TR/2004/REC-owl-guide-20040210,2010-11-11.

[8]PeterF.Patel-Schneider,PatrickHayes,IanHorrocks.OWLWebOntologyLanguageSemanticsandAbstractSyntax[EB/OL].http://www.w3.org/TR/2004/REC-owl-semantics-20040210,2010-11-17.

[9]protégé[EB/OL].http://protege.stanford.edu,2013-12-10.

[10]IDEF5MethodReport[EB/OL].http://www.idef.com/pdf/Idef5.pdf,2013-05-10.

[11]ENTERPRISE.M.Uschold.OntologiesPrinciples,MethodsandApplications.KnowledgeEnginneeringReview,11,1996.

[12]TOVE.Gruninger,M.andFox,M.S.MethodologyfortheDesignandEvaluationofOntologies,WorkshoponBasicOntologicalIssuesinKnowledgeSharing,IJCAI-95,Montreal,1995.

[13]METHONTOLOGY.Fernandez,M.,Gomez-Perez,A.andJuristo,N.METHONTOLOGY:FormOntologicalArtTowardsOntologicalEngineering,AAAI-97SpringSymposiumonOntologicalEngineering,StanfordUniversity,1997.

[14]NatalyaFNoy,DeborahL.Mcguinness.OntologyDevelopment101:aGuidetoCreatingYourFirstOntology[EB/OL].

http://protege.stanford.edu/publications/ontology_development/ontology101-noy-mcguinness.html,2013-09-23.

[15]高等学校的档案实体分类[EB/OL].http://dag.sanxiau.edu.cn/FileInfo.asp?Id=41#,2013-09.

[16]重庆市档案局.档案工作基础[M].重庆:重庆市档案局,2003.

[17]档案工作基本术语[EB/OL].http://wenku.baidu.com/view/ce5752db50e2524de5187e4e.html,2013-12-27.

[18]重庆三峡学院党政办公室.重庆三峡学院档案工作法规制度选编[M].2005.

[19]冯惠玲,张辑哲.档案学概论[M].北京:中国人民大学出版社,2006.

(责任编辑:高媛)