随着Google IPO掀起的疯狂,不难看出Google所具有的广泛的社会意义。对于大多数来说,是Google让网络变得真正实用起来。那么,Google是如何做到这些的呢?
在线世界与现实世界的区别之一就是前者更易于找到本人想要的东西。譬如,要寻找一篇The Economist(经济学家)出版的文章,您就得去一家报摊,而这里还不一定有没有您希望的这篇文章。换种方式,试试网上搜索。进入Google,输入“economist”,您就能立刻进入Economist.com。至此已经很难记起这种寻找方式是从何时普遍起来。事实上,直到1998年9月Google诞生以前,人们还没有形成这样的习惯。因为在当时的现实生活中,在线搜索还仅是一种漫无目的的操作。
Google=搜索
Google比其之前出现的任何工具都具有优势,也因此它才改变了人们利用网络的方式。几乎一夜之间,它扩大了网络的作用,尤其对于那些非专业搜索用户来说,Google简直成了他们进入互联网的大门。最近,关于Google证券市场的讨论大大泯灭了其广阔的社会意义:仅仅少数极具影响力的技术就让他们的名字被作为动词使用。
Google诞生于1998年,是当时还是斯坦福大学研究生的Sergey Brin和Lawrence Page开发的一项理论调查项目。尽管Google现在已经成为网上最受欢迎的 搜索引擎,但它不是搜索引擎的开山鼻祖。当时已发布的搜索引擎已经能够扫描或“crawl”爬行大部分网络内容,建立索引库,然后找到与某些词语相匹配的网页。但他们在网页返回方面普遍存在缺陷,即无法以一种有效的方式从成千上万网页中找出最佳信息。
Brin和Page的成就就是发明出搜索结果归类方式,通过一种被成为PageRank的数学运算法则得出最具相关性的结果网页。该运算法则是Google成功的核心,使其区别于以前所有的搜索引擎并赋予其从浩淼网络中为用户找出最有用网页的神奇能力。
解剖网络
PageRank通过分析网络本身的结构发挥作用。Google数据库中数十亿网页中的每一个网页与其他网页建立导出链接,或者是导入链接 。因此Brin和Page充分认为,如果一个网页被许多其他网页加入链接,那么说明它很重要。此外,如果导向某个网页的网页都非常重要,那么说明该网页可能更加重要。因此形成该公式的内在循环理论,即一个网页的重要度取决于导向该网页的其他网页的重要度。利用某些精确计算得出最终结果,使每个网页赋予一定值,从而反映该网页的重要度。
计算每个网页值的最简单的方式就是进行一个重复或“迭代”计算。首先,所有网页都被赋予一个相同的值;然后,把从一个网页指向另一网页的每条链接视为对目的网页的一记投票。每个网页的分值随着网页上导入链接的增加而不断重新进行计算,也就是导出链接网页的分值除以该页面上导出链接的数量。(每个页面的分值就这样被导出页面均分。)
重新计算得出的分值将被作为新一轮分值计算过程中的依据,直至分值最终被确定并不再变化(数学上称之为“聚合”)。最终分值被作为排列搜索结果的依据:与某特定搜索词条相匹配的网页按照递减分值排列顺序,因此最重要的网页就会出现在搜索结果列表顶部。
以上是对PageRank计算法则的最简单描述,然其运算速度达不到最快。事实上,Google采用的是被称为“线性代数”的一项数学分支成熟技术, 从而一步完成计算程序。(PageRank实际运算公式仍存在于斯坦福大学的网页Stanford web page上,其中还包括到一项额外的避免网页分值持续上升的“递减因数”。)
另外,PageRank运算法则一直被不断修改,避免人们将此套系统用于博弈运作。自1998年Google诞生以来,网页在Google搜索结果的排名被逐渐被重视,尤其对于依靠搜索引擎吸引潜在客户的商家来说更加重要:现在,三个人中至少有一个选择Google搜索引擎。正是出于这样的原因,一个被称为“搜索引擎优化师”的行业迅速崛起。付费后,他们就能巧妙地提高您的网页在Google及其他搜索引擎上的排名。
原始的PageRank运算法则被按照一种简单直接的模式操作,通过建立网页“链接工场”增加目标网页的导入链接数量,夸大该网页的重要性。因此,Google最出的排名原则已经逐渐被复杂化,直到目前已经能够识别并把那些试图作弊的网页记入黑名单。