本体建模与语义Web知识发现 1

时间:2022-12-25 22:55:43

第1章 基于语义Web的智能检索和知识发现

    语义Web不是另外一个Web,它是现有Web的延伸,其中信息被赋予了良定义。语义Web将在更加微小的信息之间建立直接的连接,例如一条街道的地址与一份地图等,用户可以将两个毫不相干的东西连接在一起,比如说银行报账单和日历。用户可以将银行报账单拖到日历上,也可以将日历拖到银行报账单上,这样就可以知道何时进行支付。语义Web将呈现给人们一个所有数据“无缝”式连接的网络。在语义Web技术破土而出之后,人们对Facebock和MySpace等社交网站的“痴迷”终将被“无所不连”的网络所取代。

1.1、语义Web下的信息检索

      需要3大关键技术支持:XML、RDF和Ontology。Tim-Berners-Lee提出的语义网层次结构。

本体建模与语义Web知识发现 1

1)Unicode和URI层:是整个语义web的基础,Unicode保证使用的是国际通用字符集,实现网上信息的统一编码。URI是URL的超集,支持语义网上的对象和资源的精细标识,从而使精确信息检索成为可能。

2)XML + Name Space + XML Schema层:XML和命名空间层用于表示数据的内容和结构,XML层具有命名空间和XML模式定义,通过XML标记语言可以将网络上资源信息的结构、内容与数据的表现形式进行分离。

3)RDF + RDF Schema层:用于描述Web上的资源及其类型,为网上资源描述提供通用框架和实现数据集成的元数据解决方案。

4)本体层:用于描述各种资源之间的联系,采用OWL表示。本体(Ontology)揭示了资源以及资源之间复杂和丰富的语义信息,将信息结构和内容分离,对信息做完全形式化的描述,使Web信息具有计算机可理解的语义。

5)逻辑层:用于提供公理和推理规则,为智能推理提供基础。可以进一步增强本体语言的表达能力,并允许创作特定领域和应用的描述性知识。

6)证明层:设计实际的演绎过程以及利用Web语言表示证据,对证据进行验证等。证明注重提供认证机制,证明层执行逻辑层的规则,并结合信任层的应用机制来评判是否能够信任给定的证明。

7)信任层:提供信任机制,保证用户Agent在Web上提供个性化服务,以及彼此之间安全可靠的交互,基于可信Agent和其他认证机构,通过使用数字签名和其他知识才能构建信任层。当Agent的操作时安全的,而且用户信任Agent的操作及其提供的服务时,语义Web才能充分发挥其价值。

      XML层作为语法层,RDF层作为数据层,Ontology层作为语义层。

      智能信息检索系统应具有如下的功能:

      (1)能理解自然语言,允许用自然语言提出各种询问;

      (2)具有推理能力,能根据存储的事实,演绎出所需的答案;

      (3)系统具有一定常识性知识,以补充学科范围的专业知识。系统根据这些常识,能演绎出更泛化的一些答案来。

1.2 知识和知识发现

知识这一概念有三种比较有代表性的定义:

(1)Feigenbaum:知识是经过消减、塑造、解释、选择和转换的信息;

(2)Bernstein:知识是由特定领域的描述、关系和过程组成;

(3)Heyes-Roth:知识=事实+信念+启发式。知识常常是模糊、不确定或不完全的,而且知识还处在不断地动态变化过程中。

知识的描述:

本体建模与语义Web知识发现 1

领域知识和知识库:主要应用在基于知识的专家系统和自然语言理解以及有关概念的约束的集合。

基于知识库的知识发现

    作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤。Fayyad,Piatetsky-Shapiro和Smyth在1996年合作发布的论文From Data Mining to knowledge discovery中总结出了KDD包含的5个最基本步骤:

(1)selection:在第一个步骤中我们首先要知道什么样的数据可以应用于我们的KDD工程中;

(2)pre-processing:当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在的错误以及缺失信息;

(3)transformation:转换数据为数据挖掘工具所需的格式。这一步可以使得结果更加理想化;

(4)data mining:应用数据挖掘工具;

(5)interpretation/evaluation:了解以及评估数据挖掘结果。

本体建模与语义Web知识发现 1

        以上传统的基于数据库的知识发现技术已经发展的比较成熟了,但在数据向数据库进行存储的时候,并没有考虑到数据之间的语义信息,这就为知识发现带来了困难,在知识发现过程中不利于语义相关知识的发现。KDD技术只处理其中以结构化的数据类型。与变化不定的数据比较,知识是相对稳定的、是从较高的层次看数据、是数据的抽象表示,其表达的内涵要远远大于数据信息。因此,研究知识中内在的联系,将成为知识发现领域下一步的研究目标。于是基于知识库的知识发现应运而生。

        在知识库建立过程中,引入本体概念,充分挖掘文档的语义信息,并以统一的格式描述知识即形成知识项存储于知识库中,为用户进行知识发现提供一种新的数据存储方式。以此为基础构建的知识发现系统,通过友好的用户界面为用户提供个性化知识发现服务,系统通过对用户的问题进行语义解析、推理机的推理以及语义映射等,从知识库中检索出用户满意的知识。

       可见,基于知识库的知识发现的关键技术是本体建模、数据集成、语义解析和推理,而语义Web下的资源描述技术XML、RDF和本体推理技术为知识发现提供了有力工具。

1.3、XML数据模式及应用

     1986年发布了《标准通用标记语言》(SGML),由于SGML过于烦琐,几乎没有应用能够支持这个标准,从而促使了HTML的出现。HTML是为方便文档页面读者而设计的。随着互联网上信息量的进一步增长,各种媒体数据更广泛的应用,HTML的局限性也逐渐体现出来。与此同时,还有另一种需求是同样的数据能否根据不同用户不同需求而以不同的效果、形式表达出来。虽然人们已付出很多努力,包括各式各样的修改扩充,如增加表格、框架、脚本语言等,但均未能从根本上改变其局限性。不同Web厂家扩展的HTML经常互不兼容,造成一定的混乱。

     为了解决HTML可扩展性差和SGML过于烦琐的缺陷,W3C组织于1998年2月发布了XML标准。该语言被描述为:XML是SGML的子集,其目标是允许普通的SGML在Web上以目前HTML的方式被服务、接受和处理。XML被设计成易于实现,且可在SGML和HTML之间互操作。

     XML语言特点:是一种元标记语言,根据需求用户可以定义自己的标记,相对于HTML而言,具有以下优点:自描述性、先进特性、灵活性、支持文档内容验证、支持高级搜索.

     XML文档本质上是保存信息的结构化载体。为了得到有效的XML文件,需要一种用来描述XML文档中信息结构的数据模型。不仅要建立XML文档中可以使用的XML词汇表,而且要定义XML文档中元素的顺序和元素的嵌套关系的内容模型,并建立文档数据的数据类型。

     XML模式的应用:

           数据交换:

           Web服务:是最令人振奋的革命之一,它让使用不同系统和不同编程语言的人们能够相互交流和分享数据

           内容管理:XML只用元素和属性来描述数据,而不提供数据的显示方法。

           Web集成:

1.4 知识表示和OWL本体语言

      要使得知识能够在一定范围内共享、使用、就需要使用一种概括性强又能较为具体表示出知识之间关系的表示模型。知识表示是指把知识载体中的知识因子和知识关联表示出来,以便人们识别和理解知识。知识表示是知识组织的基础,目前,知识组织体系使用的知识表示方法很多,包含产生式规则、谓词逻辑式、语义网络、框架式表示法、本体表示法等。基于知识本体的表示方法认为对知识本体的表示是一种可采用不同的方法来刻画自然世界的人为近似模型,它注重于知识表示的内容,而不是表现形式。

本体建模与语义Web知识发现 1

1.5 XML为基于知识库的知识发现带来的希望和挑战

      知识库建立的过程是从信息中获取知识并以统一格式存储的过程。需要进行的工作包括领域本体的建立、文档的语义处理和知识项的建立。领域本体的建立主要是使用本体构建工具进行某一特定领域的本体的构建。文档的语义处理主要是对文档进行分词、语义标引等操作以抽取出文档中的语义信息,然后将这些语义信息连同本体与知识一起存储进知识库。

      语义网的实现仍面临着巨大的挑战:

       (1)内容的可获取性:

       (2)本体的开发和演化:

       (3)内容的可扩展性:

       (4)多语种支持:

       (5)本体语言的标准化:

     智能文档是“知道”自己内容的文档,其目的是让自动化程序“知道可以用它来做什么”。这些自动化程序叫做“智能代理(Agent)”,智能代理是实现语义互联网服务的重要构件。语义互联网用知识本体来表示概念以及概念之间的关系,所以文档的语义信息标注实际上是一种建立在知识本体基础之上的标注。