电脑技术学习

百度搜索引擎收录习惯

dn001
  百度是全球最大的中文搜索引擎,对中文网页的搜索技术在某种程度上领先于Google,百度在某些方面与Google有相同或相似之处外它还有以下特点:
  1、较重视第一次收录印象
  网站给百度的第一印象比较重要,相对Google而言,百度搜索引擎的人为参与度较高,也就是说在某些层面上可能由人来决定是否收录网页而不是由机器来决定.所以,网站在登录百度搜索引擎之前最好把内容做得丰富点、原创内容多一点、网页关键词与内容的相关度高一点,这样才能给百度较好的初次印象.
  2、对网页的更新较敏感
  百度对网页的更新相对Google而言更加敏感,可能这与百度的本土性格有关.百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间.所以在百度的搜索结果中基本上都标明了收录时间.
  3、较重视首页
  百度对首页的重视程度要比Google高得多,这与上面提到的“较重视第一次收录印象”一脉相承.百度在显示搜索结果时也常常把网站首页显示出来,而不具体到某个内容页(当其认为不够重要时).相对而言,其用户体验打了折扣,而增加了其“百度快照”的用户量.
  4、较重视绝对地址的链接
  百度在收录网页时比较重视绝对地址的收录,百度提供的网页快照功能也没有解析相对地址的绝对路径,不知这是百度技术的疏忽还是其偏好的一大体现.
  5、较重视收录日期
  百度对网页的收录日期非常看重,也是其搜索结果排名的参考点,被收录得越早排名会较高,有时甚至不考虑相关性地把它认为比较重要的内容放在首位,而点击进入之后才发现是早已过时的信息或者垃圾信息.这是百度需要改进的技术.
  百度使用的技术:
  百度使用以下技术:“一种互联网上镜像和准镜像网站的识别方法”,这个方法解决了搜索引擎对雷同信息的重复获取,节省网络资源和本地资源,提高系统服务的质量和效率;“一种基于词汇的计算机索引和检索方法”,该方法对一段连续的文字信息,经过词汇分析处理后,通过添加隐形词汇的手段,实现对基于词汇索引和检索系统的检索质量提升,使用户获得更加准确的检索结果;“一种使用快照的方式实现对网上信息进行记录和分析的方法”,该方法是通过对互联网上一个特定信息,多次进行快照的方式,将信息当时的状态进行保留.并通过对一系列快照信息的分析,得到有效数据,方便地得到网上信息的变动情况.