搜寻引擎最佳化(Search Engine Optimization,简称SEO),与搜索引擎定位(Search Engine Positioning)和搜索引擎排名(Search Engine Ranking)是同一种工作,是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的提名的方式。由于不少研究发现,搜索引擎的用户往往只会留意搜索结果最开首的几项条目,所以不少商业网站都希望透过各种形式来干扰搜索引击的排序。当中尤以各种依靠广告维生的网站为甚。
所谓“针对搜寻引擎作最佳化的处理”,是指为了要让网站更容易被搜寻引擎接受。搜寻引擎会将网站彼此间的内容做一些相关性的资料比对。 然后再由浏览器将这些内容以最快速且接近最完整的方式,呈现给搜寻者。
搜索引擎优化对于任何一家网站来说,要想在网站推广中取得成功,搜索引擎优化都是至为关键的一项任务。同时,随着搜索引擎不断变换它们的排名算法规则,每次算法上的改变都会让一些排名很好的网站在一夜之间名落孙山,而失去排名的直接后果就是失去了网站固有的可观访问量。所以每次搜索引擎算法的改变都会在网站之中引起不小的骚动和焦虑。我们可以说,搜索引擎优化也成了一个愈来愈复杂的任务。
早期搜寻引擎
搜寻引擎发韧于90年代中期。此时第一代搜寻引擎开始对因特网分门别类。一开始,所有网站员得做的事只有提交所属网站到各家搜寻引擎。这些引擎跑一些蜘蛛机器人(spider)──根据超链结爬过网站的程序──并且储存所找到的资料。搜寻引擎根据标题后处理这些资讯,并且根据这些分析结果提供服务。随著在线文件数目日积月累,越来越多网站员意识到基本搜寻 (organic search, 亦翻为随机搜寻 *注一) 条目的重要性,所以较普及的搜寻引擎公司开始整理他们的列表,以显示根据最洽当适合的网页为优先。搜寻引擎与网站员的战争就此开始,并延续至今。
一开始搜寻引擎是被网站员本身牵著走的。早期版本的搜寻算法有赖于网站员提供资讯,如属哪类、关键字的汇签( tag)。当某些网站员开始滥用汇签,造成该网页排名与连结无关时,搜寻引擎开始舍弃汇签并发展更复杂的排名算法。由于数繁不及备载,仅列举数个分析目标如下:
在标题签里的文字,如 <h1>引擎</h1>
域名
统一资源定位符下属的目录与档名关键字密度
关键字接近度,如 ''''软盘、软碟'''' ''''硬盘、硬盘''''
图形连结的 Alt 属性
由于这些都还在网站员的眼皮下打滚,搜寻引擎陆陆续续碰到诸多滥用与操纵排名等难题。为了要提供较好的结果给使用者,搜寻引擎必须调适到让他们的搜索结果表现出最适当的结果,而非某些不道德的网络员产生的、只有塞满关键字的无用网页。由此,新种类的搜寻引擎应运而生。
注一:随机搜寻实在是误翻,与原始所指相差太远。
基本搜寻引擎
Google 由两名在斯坦福大学的博士生佩吉 (Larry Page) 和布林 (Sergey Brin) 开始。他们带来了一个给网页评估的新概念。这个概念, 称网页级别 (PageRank), 是从Google 算法[1]重要的开端 。网页级别十分倚赖导入链结 (incoming link) ,并利用这种每个导入某网页的链结相当于给该网页价值投一票的理论建立起逻辑系统。越多导入链结意味著该网页越有“价值”。而每个导入链结本身价值直接根据该链结从何而来的网页级别,以及相反的该页导出链结 (outgoing link) 。
在网页级别帮助下,Google 在服务相关的结果上证明它相当优异。Google 成为了最普遍和最成功的搜索引擎。由于网页级别度量了站点外因子, Google 感到它会比页内因子难以动手脚。
然而道高一呎魔高一丈。网站员们已经开发出对付Inktomi 搜索引擎的链结操作工具和计划。这些方法证明对Google 算法一样管用。许多站集中于交换、买卖大量链接。随著‘网站员寻求获取链结只单单要影响Google送更多流量给该站,而不管是否对站点访客有用否’这种行为增加,网页级别对原始算法的信赖度渐渐被破坏了。
此时,是Google 和其它查寻引擎对广大范围的站外因子仔细检视的时候。开发更加聪明的算法有其他原因。因特网已经膨胀到拥有非技术的广大族群。他们经常无法使用先进的提问技术来取的资讯;而且他们得面对比起发展早期更庞大资料、更复杂的索引。搜寻引擎必须开发具备预测性、语义性、语言性和启发性算法。
目前,网页级别的缩小版仍然被显示在Google 工具条上,不过网页级别只不过是Google 考虑在网页分级时超过100 个因素里中的一个。
今天,大多数搜寻引擎对它们的如何评等的算法保持秘密。搜索引擎也许使用上百因素在排列目录;每个因素本身和因素所占比重可能不断的在改变。
大部分当代搜寻引擎优化的思路──哪些有效、哪些没效──这些很大部分在于观察与根据内线消息来的猜测。某些优化员得执行控制下的实验以取得不同优化方法的结果。
尽管如此,以下是搜寻引擎发展它们算法时的一些考虑,另,这份Google 专利清单也许读者可猜出他们会走哪条路线:
站点的年龄
自该网域注册后过多久
内容的年龄
新内容增加的规律性
链接的年龄和连接站点的名誉
一般站内因素
负面站内因素 (例如,太多关键字汇标( tag),很显然被优化过,会对站点造成伤害)
内容的独特性
使用于内容的相关术语 (搜寻引擎关联到的术语的方式视同如何关联到网页的主要内容)
Google网页级别 (只被使用在Google 的算法)
外在链接、外部链接的链结文字、在那些和在站点/网页包含的那些链接
引证和研究来源(表明内容是研究性质)
在搜索引擎数据库里列举的词根与其相关的术语(如 finance/financing)
导入的逆向链结,以及该链结的文字
一些导入链结的负面计分 (或许那些来自低价值页、被交换的逆向链结等)
逆向链结取得速率:太多太快意味著“不自然”的链结购买活动
围绕在导出链结、导入的逆向链结周围的文字。例如一个链结如果被 "Sponsored Links" (赞助商连结) 包围,该链结可能会被忽略。
用 "rel=nofollow" 建议搜寻引擎忽略该链接
在站点该文件的结构深度
从其他资源收集的网格表,譬如监视当搜寻结果导引用户到某页后,用户有多频繁按浏览器的返回钮
从来源像:Google AdWords/Adsense、Google 工具条等程序收集的网格表
从第三方资料分享协议收集的网格资料 (譬如监测站点流量的统计程序提供商)
删除导入链结的速率
使用子网域、在子网使用关键字和内容质量等等,以及从这些活动来的负面计分
和主文件语意上的连结
文件增加或改动的速率
主机服务商 IP 和该 IP 旗下其它站点的数量/质量
其他链结站会员 (link farm / link affiliation) 与被链结的站 (他们分享IP吗? 有一个共同的邮递地址在"联络我们 (Contact Us)" 页吗?)
技术细节像利用301重定向被移除的网页、对不存在网页显示404服务器标头而非200服务器标头、适当的利用 robots.txt
主机服务商正常运行时间
是否站点对不同类的用户显示不同的内容 (掩饰 (cloaking))
未及时矫正、无效的导出的链结
不安全或非法内容
HTML代码品质,以及错误出现数
由搜寻引擎自他们搜寻结果观察到的实际点击通过率评等
由最常存取搜寻结果的人手动评等
搜寻引擎优化和搜寻引擎之间关系
在第一代搜寻引擎发表后,搜寻引擎操作员变得对搜寻引擎优化社区感兴趣。在一些早期搜寻引擎, 譬如INFOSEEK, 要得到第一名不过是把顶尖的网页代码抓下、放在您的网站、并提交个URL让搜寻引擎立即索引并排名该页这么简单。
由于搜寻本身的高价值和标定性,搜寻引擎和搜寻引擎优化员间自始便存在对抗的关系。最近一次于2005 年召开的AirWeb年会,旨在谈论缩小这种敌对关系差距,和如何最小化某些太过于侵略性优化造成的损坏效果。
某些更具侵略性的优化员产生自动化的站点,或者使用某些最终会让该网域被搜寻引擎扫地出门的技术。而大多数优化公司则销售长期、低风险的策略服务,而且大部分使用高风险战略的优化公司,则在他们旗下的会员点使用、产生商业线索、或者纯内容站点,而非让它们客户站亲身涉险。
高品质网站通常排名很优
对许多有心于最大化网站附加价值的网站员们,可阅读由搜寻引擎出版的、以及W3C发行的编码指南。如果该指南被遵循,站点频繁地更新,有用、原创的内容,和建立几个实用、有意义的导入链接,获得相当可观数目的基本搜寻流量不是甚么难事。
当站点拥有有用的内容,其它站点员自然而然会连结至该站,进而增加访客它的网页级别和访客流。当访客发现一个有用的网站,他们倾向于利用电子邮件或者及时讯息连结介绍给其它访客。
总括来说,增进网站品质的搜寻引擎优化实现很可能比直接寻找操控搜寻排名手段的短期实现要活得长久。顶尖的搜寻引擎优化员们找寻的目标与搜寻引擎追求发扬光大的东西二者不雷而同。他们是:相关性、对他们用户有用的内容。
搜索是除了电子邮件以外被用得最多的网络行为方式。通过搜索引擎查找是网络冲浪者寻找网上信息和资源的主要手段。搜索引擎营销已经成为网络营销最重要的组成部分。如何使自己的网站被主要的搜索引擎收录、然后获得较高的排名,成为网站建设者们绞尽脑汁的话题。
1)了解搜索引擎如何抓取网页和如何索引网页。
你需要知道一些搜索引擎的基本工作原理,各个搜索引擎之间的区别,搜索机器人(SE robot或叫web crawler)如何进行工作,搜索引擎如何对搜索结果进行排序等等。
2)标签优化。
主要包括主题(Title),网站描述(Deion),和关键词(Keywords)。还有一些其它的隐藏文字比如Author(作者),Category(目录),Language(编码语种)等。
3)如何选取关键词并在网页中放置关键词。
搜索就得用关键词。关键词分析和选择是SEO最重要的工作之一。首先要给网站确定主关键词(一般在5个上下),然后针对这些关键词进行优化,包括关键词密度(Density),相关度(Relavancy),突出性(Prominency)等等。
4)了解主要的搜索引擎。
虽然搜索引擎有成千上万,但是对网站流量起决定作用的就那么几个。比如英文的主要有Google,Inktomi,Altavista等;中文的有百度,搜狐等。不同的搜索引擎对页面的抓取和索引、排序的规则都不一样。还要了解各搜索门户和搜索引擎之间的关系,比如Yahoo和AOL网页搜索用的是Google的搜索技术,MSN用的是Looksmart和Open Directory的技术。
5)主要的互联网目录。
Yahoo自身不是搜索引擎,而是一个大型的网站目录,Open Directory也不是,他们和搜索引擎的主要区别是网站内容的收集方式不同。目录是人工编辑的,主要收录网站主页;搜索引擎是自动收集的,除了主页外还抓取大量的内容页面。
6)按点击付费的搜索引擎。
搜索引擎也需要赢利,随着互联网商务的越来越成熟,收费的搜索引擎也开始大行其道。最典型的有Overture和百度,当然也包括Google的广告项目Google Adwords。越来越多的人通过搜索引擎的点击广告来定位商业网站,这里面也大有优化和排名的学问,你得学会用最少的广告投入获得最多的点击。
7)搜索引擎登录。
网站做完了以后,别躺在那里等着客人从天而降。要让别人找到你,最简单的办法就是将网站提交(submit)到搜索引擎。虽然免费已经不再是互联网(至少是搜索引擎)的主流-如果你的是商业网站,主要的搜索引擎和目录都会要求你付费来获得收录(比如Yahoo要299美元),但是好消息是(至少到目前为止)最大的搜索引擎Google目前还是免费,而且它主宰着60%以上的搜索市场。
8)链接交换和链接广泛度(Link Popularity)。
网页内容都是以超文本(Hypertext)的方式来互相链接的,网站之间也是如此。除了搜索引擎以外,人们也每天通过不同网站之间的链接来Surfing(“冲浪”)。其它网站到你的网站的链接越多,你也就会获得更多的访问量。更重要的是,你的网站的外部链接数越多,会被搜索引擎认为它的重要性越大,从而给你更高的排名。所以,你得花很多精力去做和别人做交换链接。