Google的大爸爸数据中心已经全面使用3个月了,最近有一些明显的现象,最引人注目的是很多网站被Google所收录的网页数急剧下降。
这里说的下降不是从90%降到80%之类的,而是几万页几十万页降到几百页。上个月Matt Cutts在他的博客里面曾经谈到这个问题,原因主要是链接质量问题,比如大量交换链接,买卖链接,指向垃圾网站的链接,无关链接等等。
但是从受影响的网站之多和网页收录数目下降之多看,似乎不是链接质量所能解释的。Matt Cutts最近在休假,没有任何来自Google的消息对这个现象做出解释。
有的人发现网页收录数下降和网站PR值有关,PR值决定Google收录多深的网页。比如说如果你的网站主页是PR5,那么你的网页最多可以被收录到离主页2次点击远的网页,超过3次点击以上才能达到的网页就不会被收录了。
有的人还做了一个很大的网站地图(sitemap),把上千个连向深层网页的链接放在离主页只有一次点击的网站地图上,结果这些网页竟然被重新收录了。
不过这种观察到底是个案还是普通规律,除了Google谁也不能判断。而且这种方式对大型网站来说基本上是不实用的,如果你有几万几十万页,不可能把这些网页都做到离主页只有两次点击的距离。技术上可以,但那样做显然违反了Google经常教育大家的原则:从客户出发,不要为搜索引擎着想。
还有的人猜测是因为Google网站地图出了技术问题,因为经常是递交了网站地图后网页收录数目有下降。这也无法证实。
我自己也有网站收录数从一万多骤降到700多,然后过一两天又回到了一万多。
前两天有读者在评论中有提到,他的网站网页收录数目骤降,不知道是什么原因,我想都和Google现在的这个问题有关。如果你也有网站被收录的网页数在Google里大量降低,应该不用太担心,估计是Google自身的问题。
另外前两天还注意到,Google搜索结果中的网页标题偶尔会使用开放目录所收录的网站标题,而不是网页真正的标题,应该是试验性质的,因为时有时无。
还有不少人发现Google搜索结果中的标题出现错误,不仅把标题标签中的文字放进标题,还把网页正文中的部分文字放了进去。有人猜测Google是在做试验,试图动态生成网页标题。
就目前所看,Google在爬行索引上比较混乱,排名影响不是很大,但是如果索引的变化如此巨大,从几万几十万降到几百,恐怕早晚会对排名造成影响。