XML地图 黑帽SEO培训为广大SEO爱好者提供免费SEO教程,致力于SEO优化、SEO服务
首页 > SEO教程 » SEO优化网页去重算法原理

SEO优化网页去重算法原理

2018-10-13T11:20:47 | 人围观 | 关键词:SEO优化网页去重算法原理--SEO培训


  SEO优化网页去重算法原理
 

  “天之道,其犹张弓欤?高者抑之,下者举之;有馀者损之,不足者补之。天之道,损有馀而补不足。人之道,则不然,损不足以奉有馀。孰能有馀以奉天下,唯有道者。”
 

  统计结果表明,近似重复网页(Near Duplicate Web Page)的数量占网页总数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%,即互联网页面中有相当大比例的内容是完全相同或者大体相近的。图10-1给出了一个示例,例子中的新闻主体内容是几乎完全相同的,但是两个页面的网页布局有较大差异,此种情况在互联网中非常常见。

 

  

 

  近似重复网页有多种类型,这些重复网页有的是没有一点儿改动的副本,有的在内容上稍做修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如HTML、Postscript)。内容重复可以归结为以下4种类型。
 

  · 类型一:如果两篇文档内容和布局格式上毫无差别,则这种重复可以叫做完全重复页面。
 

  · 类型二:如果两篇文档内容相同,但是布局格式不同,则叫做内容重复页面。
 

  · 类型三:如果两篇文档有部分重要的内容相同,并且布局格式相同,则称为布局重复页面。
 

  · 类型四:如果两篇文档有部分重要的内容相同,但是布局格式不同,则称为部分重复页面。
 

  所谓近似重复网页发现,就是通过技术手段快速全面发现这些重复信息的手段,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。
 

  发现完全相同或者近似重复网页对于搜索引擎有很多好处。
 

  1.首先,如果我们能够找出这些重复网页并从数据库中去掉,就能够节省一部分存储空间,进而可以利用这部分空间存放更多的有效网页内容,同时也提高了搜索引擎的搜索质量和用户体验。
 

  2.其次,如果我们能够通过对以往收集信息的分析,预先发现重复网页,在今后的网页收集过程中就可以避开这些网页,从而提高网页的收集速度。有研究表明重复网页随着时间不发生太大变化,所以这种从重复页面集合中选择部分页面进行索引是有效的。
 

  3.另外,如果某个网页的镜像度较高,往往是其内容比较受欢迎的一种间接体现,也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。
 

  4.从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。
 

  实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,图10-2给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

 

  

 

  10.1 通用去重算法框架
 

  体现,也就预示着该网页相对重要,在收集网页时应赋予它较高的优先级,而当搜索引擎系统在响应用户的检索请求并对输出结果排序时,应该赋予它较高的权值。
 

  4.从另外一个角度看,如果用户点击了一个死链接,那么可以将用户引导到一个内容相同页面,这样可以有效地增加用户的检索体验。因而近似重复网页的及时发现有利于改善搜索引擎系统的服务质量。
 

  实际工作的搜索引擎往往是在爬虫阶段进行近似重复检测的,图10-2给出了近似重复检测任务在搜索引擎中所处流程的说明。当爬虫新抓取到网页时,需要和已经建立到索引内的网页进行重复判断,如果判断是近似重复网页,则直接将其抛弃,如果发现是全新的内容,则将其加入网页索引中。

 

  

 

  10.1 通用去重算法框架
 

  在将文档转换为特征集合后,很多算法就可以直接进入查找相似文档的阶段,但是对于搜索引擎来说,所要处理的网页数量以亿计,算法的计算速度至关重要,否则算法可能看上去很美,但是无实用效果。为了能够进一步加快计算速度,很多高效实用的算法会在特征集合的基础上,对信息进一步压缩,采用信息指纹相关算法,将特征集合压缩为新的数据集合,其包含的元素数量远远小于特征集合数量,有时候甚至只有唯一的一个文档指纹。在此处与在特征抽取阶段一样,有可能会有信息丢失,所以也需权衡压缩率和准确性的问题。
 

  当把文档压缩为文档指纹后,即可开始通过相似性计算来判断哪些网页是近似重复页面。对于去重来说,最常用的文本相似性计算是Jaccard相似度,大部分去重算法都是以此作为评估两个文档是否近似的标准。另外,由于数据量太大,在计算相似性的时候,如果一一进行比较显然效率很低,在此处不同算法往往会采用各种策略来加快相似性匹配过程,比较常见的做法是对文档集合进行分组,对于某个文档,找到比较相似的分组,和分组内的网页进行一一比较,这样可以大大减少比较次数,有效提升系统效率。
 

  上述的通用去重算法框架看上去比较抽象,读者在阅读完后续介绍的具体算法后再次返回本节对照,可以获得更深刻的理解,对此框架的深入理解有助于开发者研发新的高效去重算法,应该意识到:之所以框架如此,是有其深刻原因的。
 

相关内容推荐:

Top