电脑技术学习

搜索引擎--资本游戏的一场技术梦

dn001

从微软耗资数百万美元,Yahoo接连收购三家厂商,到国内搜索引擎厂商的明争暗斗,无不是看重了搜索引擎潜藏的巨大商业价值。然而,资本的疯狂并不能掩盖技术的光芒。

“越是看不见的技术,越显得深刻,因为它们已经完全融入了日常生活。”

在北京人群川流不息的地铁通道中,一排海报格外引人瞩目,这便是刚刚在奥斯卡颁奖晚会上大出风头独得11项大奖的《指环王-王者无敌》的电影海报,仙风道骨的甘道夫和美丽的丽芙・泰勒令人不禁想走进那遥远的中世纪。海报上有很大面积用于企业宣传,8848公司的标识赫然展示其上。这是8848公司为了配合重新推出商务网站所做的宣传,其重头戏就是推出的“中文购物搜索引擎”。对此,有人说:“8848将手里握有的两千多万美金这个宝压在了搜索引擎上。”

如此大手笔的并不只是8848,刚从软银等投资方获得了8200万美元的阿里巴巴也在不久前正式推出了传言已久的搜索产品,与新闻搜索和竞价排名搜索不同,阿里巴巴搜索的目标使用群不是普通网民,而是“网商”,主要发布商业信息和商业机会。阿里巴巴CTO吴炯表示,“我们第一次在搜索领域引进并确立了信用认证和保障体系。”

不过,这些都是行业内的搜索领域,基于全网的搜索引擎之间的竞争也日趋火爆。慧聪国际在引入国务院新闻办旗下万国桥络文化传播公司的资金后,开始运营中搜网,并将注册资本增加至750万元,公司主要的业务就是搜索引擎。

面对这些威胁,中国最大的中文搜索引擎百度公司却在乐得数钱,赢利近亿元的收获使得其在搜索引擎市场上取得了绝对优势。不过,面对如此多虎视眈眈的竞争对手,百度也不敢放松,大规模的扩招正在进行,其中技术人员的比例最大。原来学习自然语言的毕业生难找工作的现状得到彻底改变,曾在微软亚洲研究院从事自然语言研究的张跃说:“我的两个师弟今年都被百度招了进去。”

国际上的竞争同样令人窒息,微软要进入的每个领域都会使原来的厂商战战兢兢,微软对搜索引擎的进军也伴随着大规模的招兵买马,微软亚洲研究院也成立了专门的小组,不过Google面对这些挑战依然充满信心,据说一位技术高手到微软几天后却加盟了Google。Google所提供的良好工作条件和创造的搜索文化对技术人员的吸引力可见一斑。

因此,尽管overture创造的赢利模式猛然间使搜索引擎创造的巨大利益使资本垂涎三尺,但在市场的竞争中,技术才是最基本的保证。

搜索引擎技术的原理

搜索引擎技术的原理实际上很简单:一般分为三个部分,首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;其次是将抓取的网页按照关键词进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后通过检索生成的索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。也有人认为,搜索引擎的界面设计可以算做新的部分。这样可以逐渐提升用户的使用体验。除此之外,搜索引擎的附属功能中还包括分布式计算模块,以及一套后台监控体系。在这些部分中,最核心是的搜索结果的排序,如何把最合适的结果排到前面。因此,可以说其他的所有环节都是为最后的计算做准备的。

但实际的检索效果受多方面因素的影响。蜘蛛的稳定性和抓全率非常重要,最早的搜索引擎只抓取静态网页,现在的搜索引擎就要求抓取更多的动态网站,因此需要对含有Script语句的网页进行解析,同时Flash的广泛应用也要求搜索引擎能够解析其中的文字和超链。海量科技一直潜心研究中文分词技术和搜索引擎技术,其总工王东胜表示:“有的网站为了防止被下载还做了很多陷阱,有时还需要在结果上进行分析,尽管这部分的技术难度不太高,但这是细活。”

接下来的格式转换和创建索引则需要深厚的技术功底。索引的难点在于让存储数据结构尽可能的优化以适合搜索的需要。这方面,各家搜索引擎厂商的技术都不太一样。但如何尽可能减少内存、CPU占用以及读盘次数则是共同的目标。尽管有些人有很好的想法,但不一定用现在的技术都容易实现。由于搜索引擎所需要处理的数据量极其庞大,不加限制的偏移位置、属性的增加可能导致系统的过渡膨胀和检索速度的下降。王东胜说:“海量在这方面开发出了自己的独立算法,这种压缩格式不需要解压,直接就可以进行运算,这样做可以节省资源并且高效的计算。”