语句索引和搜索
Abstract:Generally, full-text search service is based on words and keywords, while full-text search service based on sentences is an interesting topic. Establishing a semantic tree, whose smallest node is text and branch is statement, provides the full text retrieval service based on the semantic tree. The full text indexing and search service based on the semantic tree could be realized through the semantic feature encoding and by combining with a database.
Key words:semantic tree; full-text indexing; semantic features encoding
摘要:一般来说的全文搜索服务,大体是基于字和关键词的,基于语句的全文搜索服务是一个有意思的课题。以文字为最小节点,以语句为分枝,建立语义树,提供基于语义树的全文检索服务。通过对语句进行语义特征编码,并结合数据库,来实现基于语义树的全文索引和搜索服务。
关键词:语义树;全文索引;语义特征编解码
1 引言
搜索引擎是信息时代的基础服务之一,搜索引擎服务的核心为全文检索。常用的全文检索,一般以关键词的检索为主,对于不同的语言需要不同的处理方法。
对于常规的全文搜索来说,基本的功能就是分词加上倒排序表。
全文检索对于分词技术和字典的依赖,使得全文搜索实施的难度加大。对于不同语种需要不同的字典和分词技术,对于同一语种不同专业的文档也需要不同的分词技术和字典,不同字典和分词技术也影响了系统的通用性。搜索引擎的服务随着信息量的增大,存在索引时间长,搜索速度慢等问题。
本文探讨以语句为单位,构建基于语句的搜索引擎,绘制文字的语义树,搜索按自然语句的形式搜索,并提供自然语句或者词汇后续的文字,以此进一步的搜索。
2 全文索引技术综述
全文索引主要解决文字信息的搜索问题,结构化信息的检索依托数据库的索引技术实现,对于文档类的信息,就需要转换为结构化信息的全文搜索来完成。
为了提高索引的效率,应用了基于字典的关键词索引,引进分词技术,同义词和停止词技术,这样做主要目的是减少索引的个数,通过词的引入减少倒排序的存储来实现效率的提升。关键词的搜索,没有考虑字词之间的关系,没有语义方面的考量。
全文索引随着数据量的增大,会出现效率低下的问题,为了提高效率,会修改配置,降低索引的维度和次数来提高,例如给定关键词条索引,自动分析文档编写摘要,用摘要索引来代替全文索引。为了保证搜索匹配的效率