基于本体的专业文献检索

1绪论

  传统文献检索都是基于关键字的语法匹配和全文检索技术,主要借助于目录、索引和关键词等方法来实现.此技术的优点是简单、快捷和容易实现,但由于缺乏必要的智能性,在信息快速增长的今天,难以适应时代发展的需要.主要体现在:用户本意表达困难;无法准确揭示信息的实质内容;检索算法采用词形匹配而非词义匹配;容易形成“词汇孤岛”问题.语义万维网是目前Internet的发展方向,是能够根据语义进行判断的网络.简单地说,是一种能理解人类语言的智能网络.语义万维网具有着良好的概念层次结构和对逻辑推理的支持,现已被广泛应用于知识表达、知识共享及重用.将语义万维网技术应用到文献检索中,即是在文献资源层上增加了能表达文献主要内容和学科结构的语义层.在此基础上进行基于语义的文献检索,解决了传统文献检索技术的缺点和不足.

  2关键技术介绍

  2.1语义万维网及本

  体语义万维网的“语义”信息是蕴含在各资源节点的逻辑联系中.其体系结构如图1所示.

  在其体系结构中,第一层是Unicode和URI,它是整个语义Web的基础,Unicode(统一编码)处理资源的编码,URI(统一资源定位器)负责标识资源;第二层是XML+名空间+XML模式,用于表示数据的内容和结构;第三层是RDF+RDF模式,用于描述资源及其类型;第四层是本体词汇,用于描述各种资源之间的联系;第五层是逻辑,在下面四层的基础上进行逻辑推理操作;第六层是验证,根据逻辑陈述进行验证以得出结论;第七层是信任,在用户间建立信任关系.其中第二、三、四层是语义Web的关键层,用于表示Web信息的语义,也是现在语义Web研究的热点所在.

  图1语义万维网的体系结构

  2.2本体

  本体层在语义万维网体系结构中,处于核心支配地位.本体是概念模型的明确规范化说明,领域本体则是对具体领域中概念和关系的抽象描述,本体提供了语义交换的桥梁,能够在不同的智能体之间达成有关术语概念的共识,具体到专业文献学习中的文献检索和知识组织,本体的作用可以概括为以下几点:(1)描述文献所属学科的专业领域知识结构.(2)表示文献内容与知识组织体系之间的链接.(3) 利用复合(集成)本体从不同的角度对文献资源进行标引.(4)利用多种模式表现和理解文献集合.

  3系统结构及实现

  3.1系统结构

  为了能具有更好的可扩展性,本系统采用三层架构,由数据服务器、WEB 服务器和 WEB 终端所组成,整个系统结构如图2所示:

  图2系统结构

  用户访问层为用户通过浏览器访问学习资源管理平台提供了一个可视化的接口.开发该城所采用的主要技术包括XHTML、JavaScript、JSP 等.其中XHTML 和JavaScript 主要在客户端,由浏览器执行;JSP 则在管理平台端,由Weblogic应用服务器执行.应用服务器层主要采用Servlet 和EJB 等技术开发的应用组件构成,这些组件完成语义分析、语义推理功能.由于应用服务器层处理的信息主要是XML 格式的RDF/RDFS 信息,因此,采用了HP 公司开发的Jena API 来处理RDF 模型.数据存储层主要包括三个部分:领域知识本体、元数据库、资源数据库.这三个部分涉及到知识本体的建模、形式化表示、资源语义描述、RDF 数据的存储等内容.

  3.2本体构建

  建模工具选用 Protégé3.1,在Protégé3.1 编辑器中,本体结构以树形的层次目录结构显示,用户可以通过点击相应项来编辑或增加类、子类、属性、实例等本体元素,另外,用户可以不用考虑具体的本体描述语言,而在概念层次上设计领域本体模型.

  3.3语义解析及推理

  在构建本体和组织存储实例数据之后,就需要在应用程序中对其进行解析和应用.系统选择RDF 模型进行元数据语义编码.根据领域本体和推理规则来完成对有关元数据的推理处理,得出隐含的信息,服务于后续的查询操作.在本体数据读取、语义推理和文献检索时,主要采用了惠普实验室开发提供的 Jena API 接口方法.

  3.4检索结果分析

  为了使实验具有可比性,我们在进行检索时使用了两套检索方案.第一种是在本体的语义模型上使用同义传递规则和同义对称规则及RDF的上下位包含关系的可传递性规则进行,而第二种则是不加入任何推理成分,仅采用现在最常用的关键字匹配模式进行检索.实验结果见表1:

  表1检索结果统计

  从表中的实验数据看,语义检索查找得到的文献数多于关键字匹配检索.主要原因在于系统可以根据用户指定的关系进行扩展查找.如使用“FDDI”作为检索关键字,在计算机网络领域中“FDDI”、“ISO 9314”、“光纤分布式数据接口”均可视为对同一事物的不同描述,即同义词.我们的本体中定义了“FDDI”和“ISO 9314”之间存在同义关系,“ISO 9314”和“光纤分布式数据接口”之间存在同义关系.语义检索系统利用同义传递规则会发现“FDDI”,“ISO 9314”,“光纤分布式数据接口”三者之间是互为同义关系的,因此这三个概念都作为检索关键字.而关键字匹配检索则只能用“FDDI”来检索,这将漏选主题词为“ISO 9314”和“光纤分布式数据接口”的资源.

  4小结

  专业文献的学习和检索在目前网络学习和远程教育中是必不可少的重要环节.本文基于本体,通过抽取文献的元数据和专家咨询建立了文献元数据和学科领域本体,在此基础上进行语义分析和推理,形成语义索引层,使学习者可以在检索时,不仅能得到与检索条件精确匹配的信息资源,而且还能查询到与检索条件具有语义相关,但在语法上并不精确匹配的隐含信息资源;由于系统的开发是基于国际标准的,因此在专业中的推广应用将会使其发挥更大的作用.

  本系统以计算机网络课程为例,创建了领域本体.该本体描述了计算机网络课程的基本概念及结构,