语义Web:让计算机读懂互联网  
(计算机世界报 2007年11月26日第45期B8-B9)
×××计算技术研究所  彭晖 史忠植
       
        Web网创始人Tim Berners-Lee曾经说过他关于Web的两个梦想: 在梦想的第一部分,Web成为人们相互合作的强大工具; 在梦想的第二部分,合作延伸到计算机,机器可以分析Web上的所有数据,包括数据、链接以及人与计算机之间的交互。语义Web(Semantic Web)是实现Tim Berners梦想的关键。
        语义Web的目标是改善当今的Web。它的主要思想是使语义信息成为计算机可处理的对象。语义Web很难一下子获得巨大的成功,它会一点一点***到现有的Web中,最后在人们的不知不觉中,语义Web的时代已经到来。
 
       概念起源及研究的主要内容
       所谓“语义”就是文本的含义,它和语法是一对对应的概念。语义Web是Web的延伸,语义Web中的资源、数据和链接方式具有良好的规范的定义,以利于信息与知识的发现、自动处理、集成和重用。语义Web的目标是使Web资源可以被机器理解和处理,能够更好地支持人机协同工作。
         1983年3月,Web的创始人Tim Berners-Lee提出分布式超文本系统图,其中所包含的链接都是蕴含语义的,该图最早提出了Web信息包含语义的思想。1994年5 月 第一届国际WWW会议Tim Berners-Lee在会议报告中特别强调了语义的重要性。1997年12月,他在W3C报告中指出,Web的第一个目标是成为人们通过知识共享进行交流的媒介,第二个目标是成为人们协同工作的媒介,这为语义Web做了铺垫。1998年9月,Tim Berners-Lee 在文献中提出了语义Web的总体框架,并概括介绍了它的各个组成部分。2000年12月,Tim Berners-Lee 在XML 2000会议报告中首次提出了语义Web功能逐层增强的层次结构图,指明了语义Web的研究框架。2001年5月,Tim Berners-Lee在Scientific America中系统地给出了语义Web的概念与相关技术,至此可以说语义Web正式出现。 W3C组织是目前语义Web的标准化组织,它在语义Web的标准、规范的设计制定和开放式、合作式技术研发中起着指导性的作用,对非集中研究和开发的关键技术进行指导和标准化,以确保它们的协调发展。
 
         语义Web 的最新层次模型(亦称协议栈)如附图所示。
        语义Web:让计算机读懂互联网
        从图中可以看出语义Web发展的层次结构。第一层是Unicode(统一编码)和URI(Uniform Resource Identifier,统一资源定位器),它是整个语义Web的基础,Unicode处理资源的编码,URI负责资源的标识。第二层是XML,用于表示数据的内容和结构。第三层是RDF(Resource Description Framework,资源描述框架),用于描述资源及其相互关系。第四层RDF-S,为RDF提供了类型定义机制,确定了RDF描述的资源所使用的领域词汇。第五层是本体(ontology)和规则(Rule),本体用于描述领域概念以及概念之间的联系; 规则用于描述领域知识中的前提和结论; 本体和规则构成领域知识层。覆盖第四层和第五层的查询语句SPARQL 提供了对OWL(Web Ontology Language,Web本体语言)和RIF(Rule Interchange Format,规则交换格式)文件的查询功能。第六层是统一的逻辑(Unifying Logic),在下面五层的基础上进行逻辑推理操作。第七层是验证(Proof),根据逻辑陈述进行验证以得出结论。第八层是信任(Trust),在用户间建立信任关系。第九层是应用层,是构建在语义Web之上的各种应用。概括地说,下面两层是语义Web的基础设施,中间从元数据发展到本体描述语言及其统一的逻辑是语义Web的关键研究所在,上面的证明和信任及各层次贯穿的数字签名技术是扩充,是对语义Web成功应用的要求与展望。
         语义Web研究中的关键技术
         语义Web的发展和成功主要取决于支持它的一些关键技术的发展与成功应用。语义Web的主要技术为:
元数据获取
        目前,Web内容是按照让人读懂而不是让机器读懂的方式组织的,Web语言主要是HTML,HTML只负责数据的显示方式而不关心数据的内容。元数据是关于数据的数据,它的作用是以一种机器可以处理的方式来描述Web的内容。比如Web中一篇文章的标题用<标题>标记,文章的作者用<作者>标记,文章的内容用<段落>标记,那么标记<标题>、<作者>、<段落>就是Web中这篇文章的元数据。XML是目前使用最多的元数据表示语言,它允许各组织、个人建立适合自己需要的标记集合(元数据集合),并且这些标记可以迅速地投入使用。
本体
        用XML表示的元数据可以由各组织和个人建立,在Web中就存在同一个元数据表示不同的含义和不同的元数据表示相同含义的问题,语义Web采用本体技术来解决这一问题。本体是领域共享概念的明确的形式化规范说明。
       不同的领域和应用根据领域知识建立起自己的本体,即用本体描述语言描述共享概念及概念之间的关系,使这些概念表示明确的语义。
       本体中的主要元素包括概念(也称类)、属性、实例、关系和公理。概念是共享概念的定义,属性用来描述概念所具备的性质,实例是概念的具体化,是符合某个概念属性的对象,关系用来描述不同概念之间的相互联系,公理是领域中的规则。
       W3C根据技术发展,提出了针对语义Web的本体语言栈。由下向上分别是RDF、OIL(Ontology Inference Layer)、DAML(DARPA Agent Markup Language)以及OWL。目前OWL是W3C推荐的标准。RDF模式RDL提供了定义词汇表,是一种分类的结构,RDF-S对描述资源的元数据进行约束,从而扩展了RDF的表达能力。OIL是RDFS的一个扩展,通过XML的文档类型定义来增加定义完善的语法实现,DAML是Web本体论的扩展,允许语言表达规则。OWL是目前W3C组织推荐的本体描述语言,其目的在于提供一种语言以描述嵌在Web文档和应用中的类及这些类之间的关系。OWL 相对于XML 和 RDFS 拥有更多的机制来表达语义,从而超越了XML和RDFS 仅仅能够表达网上机器可读的文档内容的能力。
        本体的研究是人工智能长期进行的一项难题,其中本体的自动构建、不同本体之间的匹配、本体的自动演化问题是近几年本体研究的热点,也是语义Web研究中的热点问题。
逻辑
       逻辑提供了知识的形式化表示方法,也提供了从已知的知识推出未知知识的推理机制。利用逻辑推理,我们可以知道本体所表示的知识库中隐含的知识,隐含的关系,以及判断本体中的知识是否互相冲突,检验本体的一致性。描述逻辑(Description Logic)是本体描述语言OWL的逻辑基础,它是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且具有语义特征。在经过二十多年的研究与发展之后,描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具。但是描述逻辑主要还只能处理静态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。动态逻辑最开始是用来进行程序正确性验证的,后来人们也用它来对动态世界进行表示与推理,有的也用在逻辑程序设计上。它们能对动作、状态、动态关系进行较好的刻画,在静态知识上的表达力却很弱,且推理较为复杂。如何将动态与静态结合起来,这是需要研究的关键问题。
智能主体
       智能主体是分布式环境下软件智能化的重要技术。自20世纪50年代就已经提出,但真正的发展是20世纪80年代之后,在20世纪90年代成为研究的高潮,直到现在为止仍然是人工智能研究的热点。现在关于智能主体的研究主要侧重在以下几个方面: 主体的认知模型和理论、多主体系统的体系结构、主体的协作与协商、面向主体的软件方法学以及主体技术的应用等。经过近二十多年的研究,主体的理论与技术有了长足的发展,已经在很多领域中得到了应用。而对于用户来讲,语义网应该提供一种丰富完善的服务,一种在知识表示与推理之上的服务,这些服务由具有智能的主体来提供。
 
语义Web的应用
语义搜索
        搜索引擎是互联网一种主要的应用,根据2007中国互联网报告,有四分之三使用互联网的人要使用到搜索引擎。搜索引擎技术从第一代的目录检索,到第二代基于关键字的检索,走向如今发展中的第三代搜索引擎的技术研究。对第三代搜索引擎,不同的研究人员具有不同的观点,还没有统一的认识,但大家一致认为,第三代搜索引擎会或多或少地采纳语义机制来提高检索的效果和用户满意度。所以,一定程度可以认为第三代搜索引擎是基于语义的搜索引擎。语义搜索将通过准确理解用户的意图和搜索内容的含义,返回给用户更加准确有用的搜索结果,提高信息的查准率和查全率。
        在语义搜索中,本体技术、信息的存储机制、搜索算法、知识推理、语言处理等都是语义搜索中重点研究的关键技术。
语义Web服务
        Web服务是松散耦合的、可复用的软件模块。其目的是为在Internet上不同操作系统、硬件平台和编程语言间集成应用软件提供支持,方便应用的实现和发布。Web服务与其他分布式计算技术相比,最显著的优点是任何一个Web服务都可以通过标准的协议(SOAP)与其他任何Web服务交互,同时,任何一个Web服务的用户可以使用标准的Web协议来调用Web服务。由于以上特点,Web服务的研究和应用近几年发展迅速,并得到了IBM、微软、Sun等大厂商的广泛支持。Web服务在应用集成、电子商务等领域有广阔的应用前景。
尽管Web服务有很多优点,但由于服务的数量庞大,服务的开发方和使用方的分离,造成服务的自动发现、组合、监管、调用成为开发基于服务的应用系统的难点,而语义Web服务将语义Web技术和Web服务技术相结合,旨在用本体来描述Web服务,使计算机能理解服务的内容,并在此基础上实现服务的自动发现、组合和调用。
 
总结与展望
        语义Web的目标是改善当今的Web。它的主要思想是使语义信息成为计算机可处理的对象。它的主要技术主要包括元数据表示、本体、逻辑推理和智能主体技术等。语义Web的发展取决于其各层技术的发展。
        Web网的创始人Tim Berners-Lee曾经说过他关于Web的两个梦想: 在梦想的第一部分,Web成为人们相互合作的强大工具; 在梦想的第二部分,合作延伸到计算机,机器可以分析Web上的所有数据,包括数据、链接以及人与计算机之间的交互。Tim Berners-Lee关于Web梦想的第一部分可以说已经实现,Web现在已经成为人们知识共享、通信和协作的强大工具以及生活的助手,梦想的第二部分即是语义Web。虽然语义Web有了良好的结构和框架,各层技术也有所发展,但每一点语义都是一条漫长的道路,语义Web关键技术中的本体建立、本体匹配、逻辑推理等,无一不是世界级的难题。可以想象,语义Web很难一下子获得巨大的成功,它会一点一点***到现有的Web中,最后在人们的不知不觉中,语义Web的时代已经到来。
 

提出文字:现今的Web是用超链将文档连接起来,而语义Web是用语义链将Web上各种数据和资源连接起来,以发挥Web上数据和资源的最大潜力。