电脑技术学习

Google内部员工介绍google排名原理

admin

  在五月份,Udi Manber介绍了我们的搜索质量群,这个群主要负责搜索结果的排名.他介绍了群体内的不同的小组,包括核心排名,国际搜索,用户接口,评估,网络垃圾以及其它的一些小组.这篇文章中,我们介绍下核心排名小组。
作为一名在Google公司工作的负责排名相关工作的人员,我在这个领域工作了近18年,在1990年的时候刚毕业从而进入到这个行业当中.在学术界,搜索领域将被称作信息检索(简称IR)。在这里待了10年时间,我在2000年加入了Google,并工作到现在。Google排名其实是一个算法的综合体,它找到用户所查阅的最相关的结果并提交给用户。每天我们都处理海量的查询,涉及到的页面有万亿之多。这套算法就是为任何提交给Google进行的搜索服务的,而网站搜索是其中使用的最多的一项,并最广为人知的一项。排名算法同样被广发的使用-并经过变化而延伸出很多其它的服务,包含图片,新闻,YouTube,地图,产品搜索,书目搜索及其它。
我所接触到的问的关于Google排名的最多的问题是你们是如何做的?,当然,其中很有多因素从而决定了我们的排名系统是如何的完美和全美,稍后将进一步讨论。关于Google的排名,我想介绍的是:

1)最佳的地域性搜索结果服务于全球
2) 保持简单
3) 没有人为干预


第一项是很明显的.从我们对搜索的一种职业精神来说,我们当然也希望尽力使用户获得最为相关的结果.我们称这种原则为不落下任何一项搜索。当我们给任何一个国家的任何语言的搜索反馈的是不太合理的结果时(搜索引擎的发展所带来的问题绝非是一个一朝一夕能解决的)-我们在不断的改善当中,我们以此作为不断革新技术的前进动力。
第二项原则就似乎比较明显的。基本上所有的系统结构设计员都希望将系统设计的简洁,对于搜索引擎而言,我们得到广泛的搜索请求后,必须以各类不同的语言反馈相关结果,遇到的一个比较棘手的问题是在面对不断增加的搜索请求时,越来越过的难题和疑惑开始进入到我们视野。我们都在努力的使整个系统比较简洁,但是这绝非意味着以牺牲搜索质量作为代价,这是一个不断前进的努力,同时也是一个很有价值的活动。我们每周都在排名上约十次的变动,同时简洁是我们在进行这些变动时的思考的最多的一个问题。我们的工程师非常清楚为何某个页面对某个关键词的排名是排在某个位置。这整个系统化的可以有根据的系统让我们在更快的进行着创新,并且我们的确也做到了。“简单并高效是我们的一个非常重要的原则。
我们总会遇到永无休止的这样的问题,Google是否是在对搜索结果进行人工编辑?’关于这点,我想通过我们的第三项原则来说明:没有人工方面的介入。在我们看来,站点是人工建成的,并且同样人工的创建者各类页面和页面链接。
我们的算法是基于这些人工方面的一些努力。最终的搜索结果排名是根据基于算法的各类汇总分值来计算的,这些构成分值的组成部分包括社群网站,而这些绝非是我们人工所干预的。我们认为对任何个体进行主观的判断是比较主观的,我们的算法对海量的站点网站编码信息和相关的链接进行过滤,这中做法比任何人为的主观判断是更合理的。
另外一个我们反对工人干预搜索结果的原因是一些存在着问题的搜索请求恰好有时候激发了我们的排名算法方面的一些革新。对基本算法方面的改善不仅改善了搜索,也引来了整个相关搜索问题方面的更新,同时对于其它语种也是这样的。需要补充的一点,Google推荐的站点有些明确的法规政策要求的,并且我们对任何违反这些原则和规范的网站进行惩戒.(比如,法律相关要求,对儿童信息健康的影响,病毒,恶意软件等等)

我们后续将会具体讨论排名技术方面相关的细节,我们想说明的一点是我们都是搜索结果公正性比以往有改善,Google将在信息检索领域为全人类做出贡献而不断前进。