电脑技术学习

中国搜索“基于内容”?搜索结果“人工斧凿”?

dn001

对搜索引擎有一定知识的人,是知道搜索引擎发展的历史的。一个是雅虎http://www.yahoo.com/为首的目录分类,成就了雅虎目前世界第一网的地位。一个是外国以GOOGLE为首,中国以百度http://www.baidu.com/称大的超链分析网页搜索技术,目前最流行的就是这种技术,百度的成就中国人都知道,可以说,大有取新浪,搜狐,网易等所谓门户站而代之势,呵呵,你网站内容再丰富再好,有我收录的多吗?你的信息量占互联网上多少亿分之一呢?接下来呢,不知道。

中国搜索第一人陈沛先生说是基于内容的智能搜索,而且目前中国搜索使用的就是这种技术。基于内容的智能搜索有什么好处呢?陈沛先生说:“其一,慧聪搜索引擎的覆盖面非常大,目前已经覆盖了超过两亿个中文页面;其二,慧聪搜索在搜索结果的相关性方面做得非常好,即更加智能化,能够为查询者提供更多的相关内容;其三,数据库更新速度快,目前,Google的数据库更新速度是20天左右,而慧聪搜索数据库8天就更新一次,保证了搜索的准确性和时效性;其四,功能更加全面,内容更加丰富,图片、MP3搜索一应俱全。慧聪对于中文网页的搜索,是基于对内容相关的分析来做的”。不仅如此,搜索引擎不仅在搜索结果上有重大突破(智能化),而且在表现形式上也“经历了门户搜索、浏览器到桌面的一个演变过程”,并且“桌面搜索是最高级别的搜索模式”。(注:慧聪搜索在经历了慧聪搜索,中国搜索联盟之后,现以更名为中国搜索,其网站为http://www.zhongsou.com/)

下面让我们分析一下陈沛先生的见解!

先说搜索内容。

第一,“慧聪搜索引擎的覆盖面非常大,目前已经覆盖了超过两亿个中文页面”。别说上亿了,就是上万都不是个小数目。覆盖面确实不小,但是不能和其他搜索引擎比较。一比较,差距就来啦。百度收录页面不下五亿,GOOGLE更是以10亿数量级遥遥领先。比较搜索引擎不能仅看收录的网页量。为什么呢?只要我的服务器足够多,数据库足够大,蜘蛛程序运行的足够快,要多大数量的页面没有呢?再说,当收录页面达到一定数量,再多已经没有意义!当然,这里是说在页面及时更新,及时补充新鲜血液的情况下。

第二,“慧聪搜索在搜索结果的相关性方面做得非常好”。搜索结果的相关性是搜索引擎服务质量高低的试金石之一。中国搜索搜索技术优势的立足点就在这里。搜索技术的含金量多少也在这里。做的好不好要让实践来检验,最近发生的一些事,如“三剑客愚弄中国搜索 搜狐网易甘作嫁衣裳”削弱了中国搜索“在搜索结果的相关性方面做得非常好”的实际价值。这是由于中国搜索技术对基于htm外壳,动态生成内核的作弊网站缺乏免疫力,片面强调相关性造成的恶果。对于作弊网站中国搜索搜索技术没有一点抵抗力,可谓智者钱虑,必有一失的范例。作弊网站是搜索引擎的大敌,而中国搜索对 基于htm外壳,动态生成内核的作弊网站毫无防备纯粹是一个大失误。在基于超链分析技术的情况下就严加防范的网站,中国搜索却不过滤,实在令人难以置信却又实实在在发生了。

第三,“数据库更新速度快”。据笔者了解,目前网页数据库更新最快的数GOOGLE,百度次之,中国搜索最差。也许以后中国搜索会做的更好。

第四,“功能更加全面,内容更加丰富,图片、MP3搜索一应俱全” 。这个方面中国搜索做的不错。而且借助慧聪网的行业平台,网站 网页 商机 产品 企业 行业资讯 区域 图片,mp3,flash,游戏,新闻一应俱全。

再说搜索引擎的表现形式。

“经历了门户搜索、浏览器到桌面的一个演变过程”。所谓过程,其实是同时发生的,中国搜索推出的网络猪也并不新奇。照中国搜索的看法,其网络猪算做桌面吧,浏览器插件算做浏览器吧,门户搜索是搜索网站呢,还是门户站外挂的搜索频道呢?这几种形式在搜索引擎的早期发展阶段就有啦,不存在过程不过程的问题。

上面说了中国搜索的特点以及中国搜索引擎和其他搜索引擎的异同优劣。下面着重说说中国搜索基于内容的真实面目。

从搜索结果来看,一个是网页结果太“基于内容”,一个是mp3,flash搜索结果等人工斧凿痕迹过于浓重。

为什么这么说呢?

网页结果太基于内容是从中国搜索技术对基于htm外壳,动态生成内核的作弊网站缺乏免疫力的事件看出来的。基于内容的精神实质大概是“哪个页面出现的关键词多,哪个页面就更符合网友对搜索结果的预期心理”。中国搜索恰恰在这个问题上和网民朋友开了个天大的玩笑,同时也让网易,搜狐等门户网站给作弊网站做了一次嫁衣裳。所谓基于htm外壳,动态生成内核的针对搜索引擎的作弊技术是这样的:在网络上搜集尽可能多的词语,然后在网站上生成链接,注意:链接页面全是htm,这个是外壳。然后在服务器上设置一个动态页面生成程序守侯工作。当网民朋友或者搜索引擎的蜘蛛程序爬行访问收录网站内容时,动态页面生成程序开始工作啦。动态页面生成程序根据请求页面,提取关键词,然后向各大搜索引擎搜索该词语,收到结果后将内容汇集整理返回给搜索引擎蜘蛛程序,或者网民朋友。其基本工作原理就是:将搜索引擎的搜索结果,再次提交给搜索引擎。这样便可以提交无数页面来填塞搜索引擎数据库。如果搜索引擎不加防范的话,便可以是网站流量飞速提高。中国搜索目前中的就是这种“毒”。

mp3,flash搜索结果等人工斧凿痕迹过于浓重是说中国搜索好象仅仅知道极少一部分mp3和flash网站,搜索结果中出现的也就那么几个站的内容,有人工添加之嫌,大家可以试着搜索几首歌曲看看。收录网站过于稀少,更新缓慢是所谓的网址大全,网址精选,网址导航站最容易犯的毛病。说到底上利益使然。网址大全一旦有了点流量,就要求被收录站给其放上友情链接或者收费登陆,否则多好的站也坚决不收录。本来放个友情链接也无所谓,问题是那么多网址大全,联系起来费时费力,而网址大全站长又夜郎自大,不主动收录新站。就这样,网址大全提供的站陈旧过时,缺乏新鲜血液。众多网民朋友仅仅依靠网址大全来获取网络信息,造成了好站,新站酒藏深巷的局面。如果那个搜索引擎走这条路,就更加落伍啦!

最后,给网民朋友提个醒,别依靠网址大全来丰富自己的网络体验,要知道,它们提供的多是过时陈旧的内容。