对于网民来说,几乎每天都要用到它,也正是它,缔造了今天的雅虎,说道这里你可能已经知道它指的就是搜索引擎
。习惯上,人们认为网络搜索引擎是进行查询网站或网页信息的站点或工具,这是一种狭义的定义。广义地说,搜索引擎是指在互联网上或通过互联网能够响应用户提交的搜索请求,返回相应查询结果的信息技术和系统,这里所说的信息可以是任意的信息,如网站信息、商品信息等等。
搜索引擎类型和原理
互联网上的搜索引擎种类很多,但它们的技术基础都是互联网技术和数据库技术,以及一些人工智能技术和多媒体技术。按照搜索引擎提供的功能和使用的技术来划分,目前互联网上的搜索引擎有四种基本类型。
分类目录搜索
分类目录将网站信息系统地分类整理,提供一个按类别编排的网站目录,在每类中,排列着属于这一类别的网站站名、网址链接、内容提要,以及子分类目录,这就像一本电话号码簿一样,典型代表是“雅虎”。你可以在分类目录中逐级浏览寻找相关的网站,分类目录中往往还提供交叉索引,从而可以方便地在相关的目录之间跳转和浏览。你也可以使用关键词进行检索,检索结果为网站信息,这种检索也称之为网站检索。
网页搜索
网页搜索引擎同分类目录的最大区别是搜索结果不是网站信息,而是符合检索条件的网页信息。这类搜索引擎的代表是AltaVista。依据搜索引擎获得网页信息的方式不同,软件的复杂度也差别较大。常见的获取信息的方法包括:
★ 检索你递交的网页(并不是整个网站),这种情况下仍然需要用户登录自己的网页地址等信息,但搜索引擎系统程序会对提交的网页(全文)进行处理,建立索引,以提供全文检索。
★ 使用Robot在互联网上自动漫游搜寻网页信息,搜索引擎系统程序自动对Robot访问的网页进行处理,建立用于提供全文检索的索引。
无论哪种情况,网页搜索引擎都要对网页建立索引,并将搜集到的网页信息加入系统的数据库中,索引的建立则是网页搜索引擎的核心技术之一。
图形图像搜索
图形图像搜索引擎是专门搜索图形、图像(照片)的搜索引擎。但是现在的图形图像搜索引擎仍然是通过文本关键词查询相关的图形图像信息,它所采用的基本技术同传统的网站搜索引擎或网页全文搜索引擎基本相同,唯一的区别是多了一些对图形图像的专门处理技术,例如生成图像微缩图标的技术、多媒体数据库技术等等,但是这些技术应该属于多媒体技术范畴更加合适,而不属于搜索引擎技术。
当前的图形图像搜索引擎从信息来源划分主要包括两类:一类是门户网站提供的图形图像搜索,它们往往采取同网站和网页搜索引擎类似的技术获得信息源,也就是依靠用户登录和Robot自动寻找收集,比较典型的如Infoseek Image Surfer和AltaVista-Image Search,它们使用的都是同一个软件(Excalibur公司的Image Surfer图像搜索引擎);另一类是一些(专业)图库提供的图形图像搜索引擎,这些图库一般都由专门的机构维护,收录有某一方面的珍贵图像信息,典型的如“Smithsonian图片数据库”、“美国航天总署图片交流中心”等。
真正意义上的图形图像搜索引擎应该能够直接对图像本身进行搜索,当然这里面涉及到图像理解、识别、模式匹配等十分复杂的人工智能技术,是目前的技术还无法实现的。
元搜索
元搜索有一个妮称,叫做“妈妈”搜索引擎,因为这类搜索引擎自己并不收集网站或网页信息,通常也没有自己的数据库,而是将搜索请求同时发送到多个传统的搜索引擎(例如将查询请求发给InfoSeek,Excite,AltaVista,Yahoo,HotBot),然后对各个搜索引擎的反馈结果再进行整理后返回给查询者。元搜索引擎向其提交查询请求的搜索引擎称为目标搜索引擎。
元搜索引擎是一种很有用的搜索工具。它特别适合两种搜索应用:
★ 使用单个关键词或词组进行查询,通过元搜索引擎一次提交就可以获得来自多个引擎的综合结果,显然比单独地访问各个搜索引擎方便的多,而且元搜索引擎还可以自动过滤掉大量的重复信息。
★ 测试某个关键词查询在多个搜索引擎中的效果,使用元搜索显然是最方便的途径。
但是,元搜索引擎也存在很大的局限性:
首先,由于不同的搜索引擎所能支持的高级查询不同,处理方式也差别很大,因此现在的元搜索引擎都只能进行简单的关键词查询,不支持复杂的高级条件查询。
其次,由于搜索处理时间的限制,现在的元搜索引擎一般在某一个目标搜索引擎上花费的时间都不长,所以一般对每个目标搜索引擎只获取了大约10%的信息。因此当你确实需要完整的信息,元搜索引擎就无能为力了。
鉴于这种情况,现在出现了一些专门的搜索软件,通过这样的软件可以向上百个搜索引擎提交请求,然后再对结果处理。由于没有时间和带宽上的限制,所以可以长时间运行以得到更加丰富的综合结果。
引擎人机界面技术
以上我们考察的是搜索引擎核心技术,实际运行中的搜索引擎还要涉及许多辅助技术,例如:各种人机界面技术、人工智能技术、等等。
特别值得关注的是搜索引擎的人机界面技术,人机界面技术的不同往往使得搜索引擎表现出不同的特色。当前搜索引擎涉及的人机界面技术主要有三类:搜索请求提交技术、搜索结果表现技术、搜索行为分析技术。
搜索请求提交技术
多语言查询技术,这对于大型的综合搜索引擎网站特别有用,这些网站一般都收录了多种语言的信息。当用户使用一种语言输入查询关键词时(例如使用中文),系统除了使用这个关键词查询外,还会同时使用相应的英文关键词查询,这样就可以同时得到各种语言的查询结果。由于中文编码的多样性,多语言查询技术又有了其特殊意义,引擎可以在各种中文编码(GB、BIG5等等)之间转换,从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码的信息。
模糊语义查询技术,也就是当用户提交一个关键词后,系统还可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确。
精确语义查询技术,也就是查询结果应是确切的查询关键词,而不是正好的拼凑。例如,当你查询“中国”时,就不能把含“国中国”的信息也查询出来。
自然语言搜索请求提交界面,例如Ask Jeeves,用户可以直接使用自然语言来描述搜索请求,系统的自然语言理解引擎会将用户的自然语言问句转换成搜索引擎可以理解的内部搜索请求。采用自然语言的搜索请求提交界面将使搜索引擎告别关键词查询时代,进入一个崭新的时代。
现在一些网站也提供一种简单的类自然语言界面,也就是在搜索关键词前面加上一些指导用户的词句,例如:“我要找……”,这种界面从本质上还是传统的关键词搜索界面,不是自然语言界面,但毕竟可以给用户更多的指导,增强了站点的亲和力。
搜索结果表现技术
搜索引擎一般都是将搜索结果列表显示在网页上,当然也可以将结果发送到用户的电子邮箱(提供E-mail搜索的站点)。比较优秀的站点会对搜索结果进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍。
搜索结果表现技术的一个新的重要方面是搜索引擎翻译技术,它可以自动将搜索结果翻译成为用户的目标语言,这涉及到机器翻译技术的范畴。现在某些语言的机器翻译技术已经比较成熟,已经可以充分应用到搜索引擎翻译中。有兴趣的读者可以访问世界人网站(chinese.worldman.com),它借助Lycos、Yahoo等网站,进行中韩日英等语种翻译检索。
搜索行为分析
搜索行为分析技术的核心是跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。提高搜索行为分析效率的途径主要有两种:“群体行为分析”和“个性化搜索”。
现在许多搜索引擎推出的“热门关键词”服务就是一个群体行为分析的典型例子。“热门关键词”随时提供用户使用最多的关键词,用户可以直接点击这些关键词连接。由于人们的从众心理,“热门关键词”往往也是你想查询的关键词。
个性化搜索则是搜索行为分析技术最有前途的方向。通过积累用户的搜索个性化数据,将使用户的搜索更加精确,更符合每个用户的需求。
搜索引擎的未来
现在,以传统搜索引擎为核心的“网络门户”的发展受到来自各方面的巨大竞争压力,许多搜索引擎由于效率低下,给那些提供搜索引擎服务的网站带来了大量非难之词。但无论如何,搜索引擎技术作为一项专门技术已经成长起来,并且将会更加成熟,向着更广度、更深度的方向发展,搜索引擎技术也正在不断应用于各种互联网技术中。
更精确的搜索引擎
搜索引擎技术本身一个最重要的发展方向是提供更精确的搜索。当前的搜索引擎基本上都是“关键词搜索”,而且不能处理复杂语义信息,功能比较强的也只是提供一些基本的条件组合查询功能和简单的语义查询。
要想大幅度地提高搜索引擎的效率和搜索结果准确度,必须建立在对收录信息和搜索请求的理解之上,也就是说,必须处理语义信息。显然,人工智能技术将在这方面大有用武之地,这方面正是研究的热点。
提高搜索精确度的另一个途径是提供“个性化的搜索”,也就是将搜索建立在个性化的搜索环境之下,“个性化”将使搜索更符合每个用户的需求,而不仅仅是准确。
可以使用的能够理解语义的搜索引擎和个性化搜索引擎还需要很多的研究工作,近期一个可能实现的目标则是对“结构化信息”的搜索引擎,这种引擎充分利用XML等技术使信息结构化,同时使查询结构化,从而使搜索的准确度大大提高。例如:当我们想查询“做红烧肉的菜谱”时,如果在传统的引擎上,我们可以提交“红烧肉”和“菜谱”两个关键词,甚至可以指定它们之间是“与”的关系,但我们得到的结果大多数情况下不会是“做红烧肉的菜谱”,而是一堆既含有“红烧肉”,又含有“菜谱”这两个单词的网页。如果在“结构化信息”的搜索引擎中查询,则可以查询“菜谱”,同时通过结构限定为“做红烧肉的”,这时查询结果准确度就会极大地提高。
更专业化的搜索引擎
虽然现在大型的综合搜索引擎寥寥可数,但各种专业搜索引擎和专门信息搜索引擎则如雨后春笋般迅速发展起来。专业化的搜索引擎在提供专业信息方面有着大型综合引擎无法比拟的优势,它可以在某一个专业面上做得更好、更完善。其实这正符合了互联网发展的一个趋势:互联网将更专业化、分工更细。
专业搜索引擎和专门信息搜索引擎所采用的基本技术同综合引擎一样,而且基本上都是成熟的技术(某些专门信息搜索引擎可能还需要一些特殊技术),它们的发展没有技术障碍,可以预见专业化的搜索引擎将会越来越多,越来越丰富多彩。
超越搜索引擎――搜索服务
如果要问搜索引擎之后将如何发展,或者问搜索引擎之后是什么?答案就是:搜索服务。现在的搜索引擎基本上属于第一代互联网的技术,它是一种被动的技术,用户访问搜索引擎,进行搜索,获取信息。搜索服务则完全是一种主动的服务,它就象你的一个信息秘书一样,随时利用搜索技术为你提供个性化的信息服务,为你在互联网上收集各种有用信息。