内容简介
动态知识的特点在于,随时间或情境的延续或变化,用于揭示知识内涵的特征属性的状态以及这些特征属性之间的关系都会随之演化。动态知识广泛存在于各个领域,在数字图书馆领域尤其突出。本书在分析了本体及现有解决方案的不足后,提出了基于本体分子的动态知识管理方案。该方案充分借鉴了现有方案的精华并摒弃了其不足。本体分子在设计上,仍遵循OWL的设计规范,在动态知识描述时,没有引入冗余的类和属性该方案且有一些实际的应用案例 。
作者简介
周义刚 湖北黄梅人,武汉大学信息管理学院情报学博士,副研究馆员,就职于北京大学,主要从事语义网、数字图书馆技术、OAJ平台建设与运营、开放获取、新一代图书馆服务平台建设等方面的研究。
目录
0引言
01选题的背景和意义
011研究的缘起
012研究的意义
02国内外相关研究现状
021国内外基于本体的知识组织研究
022国内外动态知识组织的研究
023已有研究存在的问题和可借鉴之处
03本书的研究内容
04本书的创新点
05本书基本结构
1动态知识组织相关研究
11拟解决的关键问题
12语义网中的动态知识组织问题
121问题描述
122本体在解决动态知识组织问题时的不足
13语义网中现有的解决方案及其不足
131N-ary关系设计模式
132动态本体表示语言(Dynamic Ontology Language—DOWL)
14本体分子理论的提出
141本体分子与其他解决方案的不同
142语义网中的相对知识问题
143多粒度知识问题
15本章小结
2本体分子理论
21拟解决的关键问题
22本体分子理论的定义和特征
221本体分子理论的定义
222本体分子理论的特征
223本体分子与本体的关系
23本体分子理论的形式化描述
24本体分子的结构
25本体分子中基本的抽象概念
26本体分子在解决动态知识组织时的优势
27本章小结
3基于本体分子的动态知识组织模型构建研究
31拟解决的关键问题
32基于本体分子的动态知识组织模型构建
321整体设计思路
322本体分子动态知识组织模型
33基于本体分子的动态知识组织过程
34本体分子中的动态知识描述
341本体分子的OWL类
342本体分子的OWL属性
343本体分子中抽象概念的具体描述
35本体分子中的动态知识存储
351基于Oracle的存储方式
352基于AllegroGraph的存储方式
36本章小结
4基于本体分子模型的动态知识检索
41拟解决的关键问题
42动态知识检索模型
43知识的获取
44本体分子库构建
441本体分子库结构
442本体分子建库工具软件——OMProtégéPlugin
443本体分子库构建过程
45用户查询和结果反馈
46Lucene检索引擎
461Lucene简介
462Lucene的应用、特点及优势
463Lucene的软件包
464建立Lucene索引
465Lucene检索引擎在动态知识检索中的应用
47基于本体分子的知识可视化
471本体分子可视化的可行性
472本体分子可视化工具的选择
48本章小结
5基于本体分子的动态知识组织模型的应用案例
51拟解决的关键问题
52应用案例项目简介
53基于本体分子模型的电子政务领域动态知识检索
54电子政务领域动态知识检索系统的实现
541电子政务领域动态知识抽取
542电子政务领域本体分子库的构建
543建立Lucene索引
544检索结果的可视化
55电子政务领域动态知识检索系统功能
551元数据、本体、本体分子三种知识组织工具的结合
552基于元数据的全文检索
553基于本体的档案关系检索
554基于本体分子的动态演化检索
56本章小结
6总结与展望
61工作总结
62未来的工作
参考文献
后记
01选题的背景和意义
011研究的缘起在人类文明发展的过程中,“知识”一直是重要的推动力。正是由于知识是社会发展的重要资源,因而人类收集、存储和利用知识的能力就被视为人类生存和发展的关键因素。而知识组织是知识资源有效利用的前提。但是怎样有效地组织知识,如何有效地获取与提供知识,知识组织面临诸多挑战。当前由于知识信息量堆积式的递增,使得核心知识、外围知识和虚假知识鱼目混珠,致使知识存贮无序化,给人们利用知识带来了巨大的困难。而传统的知识组织工具(体系),如分类法、叙词表等,都是规范的科学语言且结构相对稳定,已经不能够满足当下大量异构信息的检索需求,这就需要在知识组织领域研究更新型的,具有普遍适用性,可重复利用的知识组织工具,本体就是在这样的情况下应运而生的。随着语义网和本体技术研究的不断升温,本体在各个领域得到了广泛的应用。领域本体以特定领域的知识资源为背景,通过某领域的形式本体可将该领域的知识组织起来,构成基于本体的知识组织体系。同时作为一种在语义和知识层次上描述信息系统概念模型的建模工具,本体能够准确地描述概念含义及概念之间的内在关联,并通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和推理的能力。本体作为一种新的知识组织工具,能有效解决知识检索中的查全率和查准率问题及知识的共享和复用等问题,甚至近几年,出现了很多关于对传统知识组织工具进行本体化改造的研究,足见本体在知识组织与知识处理中具有特别的学术意义和广泛的应用价值。但是目前基于本体的知识组织仅仅局限于静态知识和绝对知识,对于知识的真实性、权威性这些问题也还没有明确的解决方案,原因之一,本体是以描述逻辑为基础的“开放世界假设”;原因之二,通过本体描述的知识粒度太细,这使得粗粒度知识组织产生了困难。董慧,姜赢,高巾等基于数字图书馆的本体演化和知识管理研究Ⅰ——本体分子理论[J].情报学报,2009(3):323-330目前,语义网(Semantic WebW3C Semantic Web Activity [OL]. [2009-07-19]. http://wwww3org/2001/sw/)环境下,本体研究有两大发展趋势:轻量级本体和重量级本体。所谓轻量级本体和重量级本体是根据本体的语义丰富程度及推理能力强弱来划分的。其中,轻量级本体主要是指基于RDFResource Description Framework (RDF) [OL]. [2009-07-19]. http://wwww3org/RDF/等简单知识描述框架的知识库。以W3C联盟World Wide Web Consortium (W3C) [OL]. [2009-07-19]. http://wwww3org/的语义网部署工作组Semantic Web Deployment Working Group[OL].[2009-07-19]. http://wwww3org/2006/07/SWD/(Semantic Web Deployment Working Group)为首,提出语义网的实现需要建立在海量知识库以及轻量级本体基础之上。重量级本体对概念的含义有严格的要求,概念之间有精确的语义关系。以W3C联盟的OWL工作组OWL Working Group [OL]. [2009-07-19]. http://wwww3org/2007/OWL/wiki/OWL_Working_Group (OWL Working Group)和规则互操作格式工作组Rules Interchange Format(RIF) Working Group[OL].[2009-07-19].http://wwww3org/2005/rules/wiki/RIF_ Working_Group(Rules Interchange Format Working Group)为首,另外W3C联盟的语义网兴趣工作组Semantic Web Interest Group [OL]. [2009-07-19]. http://wwww3org/2001/sw/interest/(Semantic Web Interest Group)也有相关研究。该研究认为由于语义网是跨各个领域的应用集成,所以必须提供较高级和复杂的语义知识描述框架,用以满足各个领域知识的知识描述、知识组织和知识推理等需求。在2004年OWLOWL web ontology language reference [OL]. [2009-07-19]. http://wwww3org/TR/2004/REC-owl-ref- 20040210/成为W3C推荐的标准之后,2007年成立了OWL工作组,根据这几年领域知识描述及其应用的需求变化,继续修订和扩展OWL本体描述语言,针对OWL在推理方面太过复杂以及某些表达能力的不足,已经制定了OWL2版本。OWL2已于2009年6月11日成为W3C的候选标准,OWL2有三个方向:OWL 2 EL便于有效地对大规模本体进行推理;OWL 2 QL: 便于针对大规模数据进行基于数据库技术的合取查询;OWL 2 RL: 便于针对RDF数据进行规则扩展的有效推理支持。OWL 2 Web Ontology Language: Profiles [OL]. [2009-08-29]. http://wwww3org/TR//2009/CR-owl2-profiles- 20090611/在重量级本体研究中有一个非常重要的方向,就是如何解决语义网对于动态知识和相对知识组织不足的问题。动态知识的特点在于,随时间或情境(condition/situation)的延续或变化,用于揭示知识内涵的特征属性的状态以及这些特征属性之间的关系都会随之演化。董慧,姜赢,高巾等基于数字图书馆的本体演化和知识管理研究Ⅰ——本体分子理论[J].情报学报,2009(3):323-330动态知识广泛存在于各个领域,例如,在历史领域,描述“历史人物”的属性往往是随着“时间”的变化而演变的。对于建立的“政治信仰”这个属性,“毛泽东”的“政治信仰”是“中国共产党”,“蒋介石”的“政治信仰”是“中国国民党”。但是对于“叶挺”这个人物来说,他在“1919年”加入了“中国国民党”,又于“1924年”加入“中国共产党”,于是,叶挺的政治信仰属性在本体库中就无法表示了。本体库中的属性是知识表述的具体体现,对于不变的知识描述,本体可以胜任,可是,对于这种情况,即在属性中描述其变化过程,就无能为力了。这种随着时间而变化的知识,我们就叫动态知识。又如,国家档案局科技项目“知识管理方法技术在数字档案馆建设中的应用研究”中,对于电子政务领域中的电子档案来说,它往往是动态变化的:由于国内外形势的变化,各种政策的创建、修改甚至否定都非常普遍,如对于“住房问题”,中央曾经在2001年发布一个政策文件,湖北省针对这个政策文件在2002年制定了自己适合本省情况的省一级别的政策,其中包括对中央政策的贯彻,以及一些省一级的地方情况条款。2003年,也许2002年制定的政策需要进行调整,湖北省又颁布了2002年政策的“增修条款”。这也是一种动态知识,这种变化的管理需要建立一种新的机制。由于普通RDF/OWL本体仅仅只能表现静态知识,对于这种情况并没有明确的规则或案例作为依据。我们尝试过拆分三元组和添加间接本体的方法来解决,但是也只是权宜之计,由于RDF/OWL本体的设计缺陷,并不能从根本上解决问题。动态知识相对复杂的特点与语义网简单的知识描述模型产生了矛盾。基于语义网的本体知识描述语言如RDF以及基于RDF的OWL,都是以简单的三元组为基础的。也就是说,语义网中所有的知识都是以三元组的形式描述的。例如,“叶挺”的“政治信仰”是“中国共产党”,可以表示为RDF三元组(eg:叶挺,eg:政治信仰,eg:中国共产党)。但是如果“政治信仰”属性本身是随时间变化的话,RDF三元组就无法直接描述了。由于本体并不能描述属性的动态变化,这就导致了语义网本体对于动态知识描述的不足。而OWL本身只是在本体逻辑推理的需求之上,通过使用了一组描述逻辑词表,建立了分类、约束等推理机制,在知识描述能力上仍然等同于基于RDF的三元组描述,所以也无法解决动态知识的知识描述问题。其实除了知识描述问题外,本体作为一种知识组织工具也无法胜任动态知识的组织问题,从而会影响到知识检索和知识推理等一系列问题。这都是动态知识在语义网环境下提出的新的挑战。相对知识指的是知识的正确性和真实性是相对于不同情况而言的,并不是绝对的。董慧,姜赢,高巾等基于数字图书馆的本体演化和知识管理研究Ⅰ——本体分子理论[J].情报学报,2009(3):323-330比如数字图书馆中的文献根据权威度分为一般文献和核心文献。那么对于某些领域知识的阐述,各种文献的说法可能不一样,虽然人们普遍倾向于认同权威核心文献,但是事实上其他各种说法也可能是相对正确的,不能一概而论,特别是对于尚有争议的问题。面对这种相对知识,更需要根据具体的情况进行判断,而这种判断的依据是知识提供者所提供的各种不同版本、不同情况的相对知识,基于RDF/OWL的本体框架只是简单的三元组,因此并不提供这样复杂的支持。这也正是由于前文所述的,本体是建立在描述逻辑基础之上的“开放世界假设”。“开放世界假设”指的是任何个人或者任何组织都可以建立和发布自己所建立的本体知识,而这些不同的组织所建本体知识是开放的、全局的、平等的,普通个人和权威组织发布的知识没有任何区别,也没有任何推荐信任机制。为了解决上述问题,应该有一种对各个领域知识内容概念、相互关系及演变过程进行描述与组织的机制,以实现知识资源的共享和动态变化。本体分子理论作为语义网环境下本体理论的扩展,为解决该问题提供了新思路,它提供了一种合适的粒度,能够解决传统本体技术无法处理的相对知识和动态知识组织问题。鉴于本体分子理论在解决动态知识和相对知识组织方面的巨大优势,我们开展了一系列这方面课题的研究:(1)在我们课题组研究国家自然科学基金项目:“基于本体的数字图书馆信息检索模型研究”(项目批准号:70373047)过程中,发现了对于“历史人物”的复杂属性和“历史事件”的动态关系,基于RDF/OWL的语义网本体描述语言的相对简单性,无法很好地描述这种复杂的动态知识,比如前面提到的“政治信仰”属性。虽然在项目中采取了某些折中妥协的方法,但是对于历史领域动态知识的管理始终没有得到彻底解决。为此一直在寻求新的解决办法。(2)在2007年7月至2009年2月,笔者参与了国家档案局科技项目“知识管理方法技术在数字档案馆建设中的应用研究”(项目批准号:2006-x-29)的课题研究。此项目将本体分子理论应用于湖北省电子政务平台,构造了数字档案馆动态知识管理系统。开发了一个实现本体分子基本功能的系统,包括本体分子建库、本体分子检索以及本体分子可视化等,并且提供了通用程序接口,建立了一个可操作的本体分子演化平台,很好地解决了政务公文的补充、修改、废止等动态知识的变化过程。(3)从2008年初至今,笔者参与了国家自然科学基金项目“基于数字图书馆的本体演化与知识管理研究”(项目批准号:70773087)的课题研究。此项目针对本体技术只能解决知识描述和语义问题、无法处理动态知识和相对知识问题,将本体分子理论应用于数字图书馆领域,解决知识中不变部分和可变部分的描述、组织和控制等问题,并重点研究本体分子构建、本体演化(追踪本体分子的变化过程及结果)模型与可视化显示问题,该项目针对数字图书馆领域普遍存在的动态知识,构建了基于本体分子的数字图书馆动态知识管理原型系统。就图书馆工作的三个基本环节(资源、组织和服务)比较数字图书馆和传统图书馆,数字图书馆中的资源是数字化的,服务是网络化的,唯有在资源的组织方面存在严重缺陷,所以动态知识组织问题也是项目中值得研究的问题之一。(4)从2009年3月至今,笔者参与了北京301医院和武汉大学信息资源研究中心合作的横向项目“基于国际医学术语标准及医学本体构建子宫颈癌临床诊疗与科研数据支持系统”的课题研究。此项目研究内容包括子宫颈癌临床诊疗知识库建立、根据拟定的数据结构标准,利用分词技术对病历文本进行结构化预处理,并对其进行标引、建立“基于宫颈癌医学本体的临床诊疗决策支持系统”。由于医学领域知识的相对性、不确定性、动态性等特点非常突出,很多知识并不是绝对知识,而是动态知识。仅仅依靠基于三元组的本体描述语言RDF/OWL是无法胜任的,更无法开展后续研究工作。因此将本体分子理论引入到医学领域,建立基于RDF/OWL的动态知识组织模型是亟待攻关的重要课题之一。012研究的意义本文在基于语义网环境下本体的知识组织工具研究基础上,综合运用知识组织理论、本体分子理论及语义网技术,全面、系统、深入地探讨了动态知识组织的规范标准及相关方法工具的使用,构建了基于本体分子的动态知识组织模型,并根据本体分子库结构,开发了本体分子建库工具软件。为了将该模型应用于项目实践中,本文还提出了基于本体分子的动态知识检索模型,解决了动态知识提供的问题。最后还根据实际项目,探讨了该模型在电子政务领域数字档案馆的应用。本文的理论价值在于,丰富和完善了知识组织的理论体系、方法体系,促进了知识组织方法的变革,为如何解决语义网环境下各领域的动态知识组织问题提供了一种新的思路。同时,为用户提供了一种全新的个性化、专业化和智能化的服务机制。本文的现实意义在于语义网环境下动态知识组织体系建设是当前语义网发展的现实需求;鉴于语义网环境下,存在着大量的动态知识,而本体描述语言RDF/OWL的简单性,导致了本体不足以很好地解决动态知识组织问题,再加上语义网中还没有一个全面的、统一的动态知识组织解决方案,所以研究语义网环境下新的知识组织模型意义重大。本文的案例应用,资源丰富、功能强大,底层所提供的是通用程序接口,为项目在其他领域的推广应用奠定了坚实的基础。
……