知识图谱能够赋予信息明确的结构和语义,使机器不仅可以直观地显示这些信息,更能够理解、处理和整合它们。近年来,随着链接开放数据LOD(Linked Open Data)、OpenKG等项目的全面展开,知识图谱数据源的数量激增,大量以RDF为数据模型的图结构语义数据被发布,如DBpedial、Wikidata2、zhishi…mel3]等。互联网从仅包含网页和网页之间超链接的文档万维网逐渐转变成包含大量描述各种实体和实体之间丰富关系的语义万维网。在这种背景下,以谷歌为代表的各大搜索引擎公司纷纷构建知识图谱来改善搜索质量,从而拉开了语义搜索的序幕。
与传统互联网中的文档检索不同,语义搜索需要处理粒度更细的结构化语义数据,因此也面临着前所未有的挑战。原有成熟的针对非结构化的、Web文档的存储与索引技术对知识图谱不再适用。现有的排序算法也不能直接应用到面向实体和关系的知识图谱语义搜索中。以SPARQL查询为代表的结构化查询语言的出现,为支持知识图谱的语义搜索提供了基础。此外,支持用户熟悉的关键词、自然语言查询对于知识图谱的语义搜索也至关重要。本章旨在全面系统地介绍以RDF为数据模型的知识图谱语义搜索基础技术以及面临的挑战。
语义搜索简介
搜索也称信息检索((Information Retrieval),是从信息资源集合获得与信息需求相关的信息资源的活动团。近年来,在互联网和企业应用上,搜索技术受到了广泛的关注和应用。其中,最广泛