返回首页
当前位置: 主页 > 教育技术学 > 理论研究 >

语义网简介

时间:2011-03-23 11:16来源:知行网www.zhixing123.cn 编辑:麦田守望者

语义网是万维网的延伸,不仅可用自然语言表现网络内容,而且这些内容还可以被软件代理人(software agent)所阅读和使用。万维网的创始人蒂姆·伯纳斯·李将网络看做一种数据、信息和知识交换的万有媒介,可以说,语义网完全符合他的这一梦想。
WWW的缺陷,万维网基本上是由数以亿计的文本概要构成的,这些文本只能为人所读。当然,你可以搜索关键词,但如果你不去浏览一条条的搜索结果,还是不可能找到自己想要的信息。如果网络体验想要再上层楼,这些文本中的信息必须被转换成为机器也能够加以阅读和评估的数据。
在语义网上,一个人不再是当你搜索他时出现在众多网页中的一个名字。他是一组联系,联结着他的工作场所、他的熟人、他的好友、他的日程,以及他所感兴趣的东西。能够把这些可见与不可见的事物串联在一起,正是语义网的威力所在。万维网存在两个明显的不足:①计算机不能理解网页内容的语义;②网上有用信息的查准率比较低,夹杂了许多用户不需要的信息垃圾。存在这些问题的原因在于万维网现在采用的是超文本标记语言(简称HTML),把网页上的内容设计成专供人类浏览的,而非供计算机理解和处理的,因此,无法为网民提供自动处置网上数据的功能。此外,万维网是按“网页的地址”而非“内容的语义”来定位信息资源的,相同主题的信息分散在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息综合起来,因此,形成了一个个信息孤岛,查找自己所需的信息就象大海捞针一样困难。简单地说,语义网是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流像人与人之间交流一样轻松。在语义网中,网络不仅能够连接各个文件,而且还能够识别文件里所传递的信息,也就是说,它是一种聪明的网络,可以干人所从事的工作。例如:它可以让计算机辨认和识别你所需要的“apple”这个单词是水果类的苹果还是牛仔裤的商标;在读者看新闻时,它能轻松地分辨出哪句是标题、哪句是导语。语义网力图将“理解信息的含义是人类的专利”这一局面成为历史,使得计算机在一定程度上也同样可以做到,从而有助于信息共享、再利用,并使网络能够提供动态的、个性化的、主动的服务。

语义网的体系结构
语义网的体系结构是2000年由Bemers Lee提出的, 它包含 7层, 各层的功能自上而下地增强
 


第一层: U n i c o d e+U R I ( 国际码 +统一资源标识)
Unicode是一个字符集,它基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
第二层:XML+NS+xmlschema。
XML是一个精简的SGML(标准通用标示语言(Standard Generalized Markup Language)),它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema是DTD(文件类型定义,Document Data Type)的替代品,能更好地为有效的XML文档服务并提供数据校验机制。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。
第三层:RDF + rdf schema。
RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题使得所描述的资源的元数据信息成为机器可理解的信息。Rdf schema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
第四层:Ontology vocabulary。
该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而
且可以定义概念之间丰富的关系。
第五层:Logic ( 逻辑)
它负责提供公理和逻辑推理规则。为智能服务提供基础。
第六层:Proof( 验证)
它为智能代理间互相验证交换数据的签名[C1] 提供支持。
第七层:Trust( 信任)
它提供信任保证。
第五层到第七层,以下面 4层为基础进行推理操作。
语义网的技术支持
开发语义网的两个重要技术已经就绪,它们是XML (可扩展标记语言Extensive Makeup Language)和RDF (资源描述框架, Resource Description Framework)。XML让每个人都可以自己的标签,对网页进行注释。脚本(或者说程序以利用这些标签来获得信息,但这是以写脚本程人明白网页制作者各个标签的用意为前提。但是XML允许使用者在他们的文档中插入任意构,但没有说明这些结构的含意。为了解决上述缺点,语义网引入了RDF来表达含意。RDF通常是三元组的结构,每个三元组由相当像句子中的主语、动词、宾语(subject, verb, and object)三个部分组成有一种说法是主谓宾(SVO),subject, predicate and object在RDF中,文档中的声明通常是某个事物(人、网页或者其他任何东西)对于某些值(另一个人、另一网页)某些属性。这种结构用于描述由机器处理的大量数据是非常自然的方法。

今后主要的研究方向
与重点问题包括:①语义网基础理论研究,包括语义网体系结构、指导原则、建设方法等;②语义网的实际应用,建立符合语义网构想的WWW页面或网站;③本体的编制规范与标准,用以指导中文网络本体的构建;④本体的实际应用研究,建立具有一定实用价值的词汇集及推理机制;⑤对Logic、Proof、Trust各层的研究等等。
语义网与目前的Web并不是各成一派,前者其实是目前Web的一个延伸。语义网中的信息含义定义得更好、更利于计算机使用者之间的协同合作。将语义网融入现有的Web,不久,当计算机能够更有效地处理和“理解”目前仅仅是进行显示(给Web使用者)的资料时,我们将迎来更多如质量更高、速度更快搜索引擎及软件工具等重要的新功能。
[C1],“数字签名”是通过一个单向函数对要传送的报文进行处理得到的,用以认证报文来源并核实报文是否发生变化的一个字母数字串。
该技术在具体工作时,首先发送方对信息施以数学变换,所得的信息与原信息惟一对应;在接收方进行逆变换,得到原始信息。只要数学变换方法优良,变换后的信息在传输中就具有很强的安全性,很难被破译、篡改。这一个过程称为加密,对应的反变换过程称为解密。
现在有两类不同的加密技术,一类是对称加密,双方具有共享的密钥,只有在双方都知道密钥的情况下才能使用,通常应用于孤立的环境之中,比如在使用自动取款机(ATM)时,用户需要输入用户识别号码(PIN),银行确认这个号码后,双方在获得密码的基础上进行交易,如果用户数目过多,超过了可以管理的范围时,这种机制并不可靠。
另一类是非对称加密,也称为公开密钥加密,密钥是由公开密钥和私有密钥组成的密钥对,用私有密钥进行加密,利用公开密钥可以进行解密,但是由于公开密钥无法推算出私有密钥,所以公开的密钥并不会损害私有密钥的安全,公开密钥无须保密,可以公开传播,而私有密钥必须保密,丢失时需要报告鉴定中心及数据库。

顶一下
(1)
100%
踩一下
(0)
0%
标签(Tag):语义网
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片
猜你感兴趣