昨天谈到统计数字在SEO中的局限,其实这牵扯到另外一个问题,也就是SEO实验的可行性和可信度。
相信无数的人都在试图通过实验来解读搜索引擎算法。这有个专门的词,逆向工程,reverse engineering,也就是在可控条件下,通过改变网页某些参数,然后观察搜索引擎排名中的变化,达到理解搜索引擎排名算法的过程。
这些逆向工程和SEO实验,很多高手和大公司都在不停的做着,有的也很有成果。可是说到底,这种实验数据是不能百分之百可靠的。
这就像解数学题:AxB=C。当我们知道结果C(也就是搜索引擎排名)和A或B中一个数据时,我们能计算出A或B中另外一个数。但是当我们对A和B中两个数都不知道时,只能列出一堆可能性,却不可能得到唯一的AB数值答案。
更何况搜索引擎算法考虑的不是两个数值,而是一两百个参数。而我们这些外人对这一两百个参数可以说一个都不确切知道。所以想通过反向工程推论出这些参数是怎么设置的?在排名算法中占有的比重?理论上是不可能的。
举个简单例子,假设我们想实验关键词密度是3%好还是5%好。一个可以设想的实验模型是,用两个同时注册的域名,放上相同长度的文章内容,其中一个目标关键词密度3%,另一个密度5%,在同一个网页上放上这两个新域名的链接。等收录后查询目标关键词,看哪个网页排的靠前。这关键词的选择最好是很冷门生僻的词,甚至是唯一的词,在其他网页上没出现过。
可是这样一个看似还算合理的模型,却忽略了很多可能影响试验结果的因素。比如,同一个网页上放两个链接,必然有前有后,这两个链接的权重会不会不同?新域名收录时间会不会造成不同?而收录时间又会不会造成域名权重不同及排名不同?
一旦网页上出现这两个域名的链接,怎么保证没有其他人,其他任何地方出现这两个域名的链接?因为一旦出现,实验者就不能保证这两个域名的链接数目和权重完全一样。
另外,这两个新域名网页内容要不要是一样的内容?还是不同的内容?如果是一样,或者是大部分一样的内容,是不是会造成复制内容网页?而对复制内容,搜索引擎将选择其一为原创,另外一个为复制。在其他条件完全相同时,这个选择是不是是随机的?如果内容放不一样,由语义分析带来的微妙差别怎样计算?
这种种因素其实都很难控制,会对实验结果造成什么影响很难讲。严格来说,要在完全受控条件下进行SEO实验,是我们这些做网站的人办不到的。SEO实验结果有时有很高的参考意义,有时也很误导。