浅谈搜索引擎的类型
基本上,Google 使用 PageRank 来评估入站链接(链接到您的站点的站点)和出站链接(您的站点链接到的站点)的质量,它会给出一个值来表示这些链接的数量和质量(流行度)。Google 认为的高质量站点会获得更高的 PageRank。然后,Google 综合使用 PageRank 排名和超文本匹配分析来寻找与搜索相关的页面。
为了防止有人利用垃圾技术欺骗搜索引擎,Google 不断改变它的排名算法并更新它的索引。在搜索引擎中获得高排名的最佳方法是,优化站点,切勿依靠排名算法的漏洞来获得高排名,那样会受到Google严厉的惩罚。与现实世界中一样,最诚实的 SEO 就是最好的策略。
目录和真正的搜索引擎之间的差异是,目录是人为编辑出来的,而搜索引擎是由爬行器通过跟踪链接漫游 Web 而建立的。白帽 SEO 的主要关注点在于提高站点在使用爬行器编辑的搜索引擎中的排名。
搜索引擎工作原理
为了收集数据,搜索引擎让爬行器跟踪链接漫游、组织数据并判断每个页面上的文本与什么内容相关。当搜索者进行搜索时,搜索引擎利用爬行器收集的信息,通过专用排名算法建立与这次查询最相关的站点列表,并显示在 SERP 中。
目录工作原理
纯粹的目录就像是图书馆中的分类卡,只不过是采用了电子形式。它包含编辑好的已提交到目录中的站点列表。它知道这个列表中有什么,而且知道对于搜索字段中输入的单词应该搜索哪些类别。这是因为最初的提交者常常会选择分类。另外,搜索者可能根据目录的类别进行浏览,寻找带有他所请求的单词的站点。
Google 是真正的搜索引擎。它提供一些来自 Open Directory 或 DMOZ (开放式分类目录Open DirectoryProject)的目录结果(参见 参考资料),但是大多数结果来自爬行器的漫游和 PageRank 算法(参见 PageRank)。Yahoo!® 是一种目录混合型搜索引擎,它首先搜索自己的目录,然后使用 Yahoo Bot Slurp! 进行搜索引擎搜索。
关于 Google 的更多信息
许多 Web 站点管理员报告说,Google 的搜索索引在他们所有与搜索相关的流量中占主要比例。正因为 Google 如此流行,您很可能希望主要针对 Google 来优化站点(请参见 参考资料 中 Google 自己的统计数据)。
对于 Web 站点管理员来说,幸运的是,Google 之所以成为第一搜索引擎,并不是由于它采用了什么营销手段或者对用户友好的其他手段,而是因为它是真正的搜索引擎,它的搜索以内容质量和链接质量为依据。Google 一直坚守着 “对用户有益的东西就在 SERP 中具有高排名” 这一原则。
Google 和所有其他搜索引擎
美国大多数搜索引擎和目录都与 Google 和 Yahoo! 有关。要想进一步了解这些关联,请参见 参考资料 中 Bruce Clay 的 Search Engine Relationship Chart。
Google 有一个 Add URL 工具,但是站点的排名是由链接分析决定的;如果 Google 没有被其他要编入索引的站点引到您的站点,那么就永远不会给予您较高的排名,无论您是否主动提交了站点。通过 Add URL 进行提交并不意味着页面会被自动列出,但是它能使搜索引擎注意到您的页面。过去,SEO 专家建议使用 Add URL 工具对爬行器不易找到的页面进行 “深度提交”。但是,现在 Google 引入了 Google Sitemaps(Google 站点地图),用这种格式进行提交效果会更好。本系列的第 3 部分将详细介绍 Google Sitemaps。
从长远角度来看,在 SEO 方面的努力最好投入在优化站点以促进 Google 和其他爬行器的深度漫游上。
Google 的排名算法是一项顶级机密。关于 Google 的已知情况如下:
Google 的主要结果来自在 Web 上漫游的爬行器。
Google 的爬行器只查看页面上的可见文本。
Google 为以下类型的文件编制索引:html、pdf、ps、wk1、wk2、wk3、wk4、wk5、wki、wks、wku、lwp、mw、xls、ppt、doc、wks、wps、wdb、wri、rtf、swf、ans 和 txt。
Google 索引的创建过程主要关注页面内容和链接流行度。决定页面在 Google 列表中的排名的部分因素包括:指向这个站点的链接数量、链接到这个站点的站点的质量、指向这个站点的链接中和链接周围的文本以及页面本身链接到的内容。
Google 公布,其结果由超过 100 种因素决定。
Google 使用 PageRank 检查 Web 站点的链接结构,从而判断哪些页面是最重要的。
Google 还会进行它所说的超文本匹配分析(hypertext-matching analysis) 来判断哪些页面与特定的搜索查询相关。