百度搜索引擎_检索系统概述

前面扼要介绍过了搜索引擎的索引体系,实际上在树立倒排索引的后还需要有一个入库写库的进程,而为了提高功率这个进程还需要将悉数term以及偏移量保存在文件头部,而且对数据进行紧缩,这涉及到的过于技能化在此就不多提了。今日扼要给咱们介绍一下索引以后的检索体系。

检索体系首要包含了五个部分,如下图所示:

(1)Query串切词分词行将用户的查询词进行分词,对以后的查询做准备,以“10号线地铁毛病”为例,也许的分词如下(近义词疑问暂时略过):

10 0x123abc

号 0x13445d

线 0x234d

地铁 0x145cf

毛病 0x354df

(2)查出含每个term的文档调集,即找出待选调集,如下:

0x123abc 1 2 3 4 7 9…..

0x13445d 2 5 8 9 10 11……

……

……

(3)求交,上述求交,文档2和文档9也许是咱们需要找的,全部求交进程实际上关系着全部体系的功能,这儿面包含了运用缓存等等手法进行功能优化;

(4)各种过滤,举例也许包含过滤掉死链、重复数据、色情、废物成果以及你懂的;

(5)终究排序,将能满足用户需要的成果排序在前,也许包含的有用信息如:网站的全体评估、页面质量、内容质量、资源质量、匹配程度、分散度、时效性等等,以后会具体给咱们介绍。

卖贝商城更多商品介绍:提升品牌质量度    B2B网站系统  html5网站源码