电脑技术学习

“HillTop”论 - 探索Google排名新算法(三)

dn001

编后按:HillTop(行业得分) VS TSPR(主题性页面级别)

Google旧算法
  • 页面相关性得分(RelevancyScore) + 页面等级得分(PageRank)
    运作流程
  • 首先找到所有与查询关键词相匹配的网页,然后根据页面因素(标题关键词密度等)进行排名,最后通过PageRank得分调整网站排名结果。
    关于PageRank
    定义:
  • 原始公式为PR (A) = (1-d) + d (PR (t1)/C (t1) + ... + PR (tn)/C (tn)),其中D为阻尼因子,一般设为0.85;公式可描述为:A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。
  • 缺陷:
  • 互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。而页面级别系统单纯根据网页上的外部链接站点的数量,质量及页面等级决定该网页的“重要性”,但却忽略了链接页面对查询条件的主题相关性,导致一些网页即使主题与该查询条件并无关系,但也由于偶而提及该查询关键词而在搜索结果中得到很好的排名。从而影响了搜索结果的相关性与精准性。

  • HillTop算法(行业得分)主题性页面级别算法(TSPR)
    Google新算法
  • 页面相关性得分 (RelevancyScore)
  • + 页面等级得分 (PageRank)
  • + HillTop得分
  • 页面相关性得分 (RelevancyScore)
  • + 页面等级得分 (PageRank)
  • + TSPR得分
  • 提出者
  • 克利须那.伯哈拉特 (Krishna Bharat)
  • 塔赫尔 哈维利瓦拉 (Taher H. Haveliwala)
  • 现就职于
  • Google
  • Google
  • 后台支持
  • HillTop专利技术
  • CIRCA专利技术
  • 运作流程
  • 基于查询关键词进行一次普通查询,找出所有匹配的“专家网页”,剔除其中的成员和镜象站点,然后根据目标网页获得的上述专家文档的链接的数量和质量分配一个“行业分”,再将此值送入Google其它两个排名因素中进行相应整合处理
  • 将查询条件与CIRCA数据库中主题进行匹配,并根据查询词语与数据库中所包含的主题的远近关系分配一个TSPR(主题性页面级别)得分,再将此值送入Google其它两个排名因素中进行相应整合处理
  • 定义/内涵
  • 满足查询条件(词语)的网页的所有外部"专家文档“链接所形成的"行业分”,即在考虑链接页面的页面等级(重要性)的同时,还须考虑该网页与查询主题的相关度
  • 可确定对特定词语或短语的相关概念,并能够计算“短语A”对“概念B”的相关程度,从而可根据查询条件与CIRCA数据库中主题的相关程度提供主题性查询结果
  • 相同点
  • 不但要考虑满足查询结果的网页上的外部链接页的重要性(页面等级),还要考虑这些链接页对查询主题的相关性
  • 相同主题的网站链接较之非相关网站具有更高价值
  • 不但要考虑满足查询结果的网页上的外部链接页的重要性(页面等级),还要考虑这些链接页对查询主题的相关性
  • 页面等级相同条件下,与CIRCA数据库中主题越相近的网页价值越高
  • 对商业站点排名受到冲击的解释
  • Google设置了搜索次数阈值,凡搜索频率高于此阈值的查询关键词均被纳入Hilltop系统并定期进行批处理,“热门商业词”一般都会“入围”该算法并从而受到较大冲击。
  • Google设置了关键词搜索次数上限,凡搜索频率低于此阈值的查询词都无缘Hilltop系统,因而Google仍将使用原来的算法并显示原来的排名结果。
  • 缺乏对查询条件的相关主题性
  • 若CIRCA数据库中无任何主题与用户的查询条件匹配,则Google仍使用原来的算法系统。
  • 优势
  • 提高了搜索结果的相关性和质量
  • 有效降低了人工操纵排名的可能性
  • 解决了搜索结果的质量性方面的一系列关键性问题
  • 无须精确的页面等级计算结果
  • 不足
  • 无法保证“专家文件”的公正性,质量性
  • 为保证Hilltop算法所需的处理能力,该算法只能周期性运行,从而无法保证随时向用户提供“最新、最好”的查询结果
  • 新站点对热门查询词的排名的难度加剧。
  • 查询条件的多意性可能会导致主题的错误匹配,从而影响搜索结果的正确性
  • 优化建议
  • 建立链接的侧重点放在“专家文件”上,尽可能为更多“专家文件”如网上目录,贸易目录,黄页,贸易协会和资源页等收录
  • 避免低质量或带有SPAM性质的链接机制
  • 对网站内容进行正确和适当的优化
  • 获得相关网上目录及相关站点群体的链接
  • 锁定所有可能相关的关键词,扩大对搜索结果的涵盖面
  • 保证网站设计结构的有效性,必要时可创建网站地图
  • 对网站内容进行正确和适当的优化
  • 获得相关网上目录及相关站点群体的链接