今天百翔和各位站长朋友们讨论一下什么是西安SEO优化过程中的正向索引和倒排索引:
正向索引
也可以简称为索引。
经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H 标签、锚文字等)、位置(如页面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。
搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下表所
示。
文件1 关键词1,关键词2,关键词7,关键词10.......关键词L
文件2 关键词1,关键词7,关键词30......关键词M
文件3 关键词2,关键词70,关键词305......关键词N
…...
文件6 关键词2,关键词7,关键词10......关键词X
文件x 关键词7,关键词50,关键词90......关键词Y
每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。
倒排索引
正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引的话,排名程序需要扫描所有索引库中的文件,找出包含关键词2 的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。
所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关
键词到文件的映射。如下表所示:
关键词1 文件1,文件2,文件15,文件58.......文件l
关键词2 文件1,文件3,文件6......文件m
关键词3 文件5,文件700,文件805......文件n
…...
关键词7 文件1,文件2,文件6......文件x
…...
关键词Y 文件80,文件90,文件100......文件x
在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。
那么作为西安SEO优化站长的你,当你了解了搜索引擎的这一排名机制以后,你在以后的软文关键词布局方面是否需要注意更多呢,一片好的软文,不仅仅是内容写的好,写的原创,更重要的是如果布局SEO关键词,使搜索引擎能够更好的识别,比如西安SEO这个关键词,我们的定义就很准确,准确的定义到西安SEO范围,而不是北京SEO优化,也不是SEO优化,那么这样所有引擎就能更好的对你的文章进行倒排归类,归类你的这篇文章是属于哪一个关键词范畴的,那么这样你的文章才有更大的几率出现的搜索引擎搜索排名挡中。