XML地图 黑帽SEO培训为广大SEO爱好者提供免费SEO教程,致力于SEO优化、SEO服务
首页 > SEO培训 » 搜索引擎通用链接反作弊方法

搜索引擎通用链接反作弊方法

2018-10-12T11:05:07 | 人围观 | 关键词:搜索引擎通用链接反作弊方法--SEO培训


  搜索引擎通用链接反作弊方法
 

  所谓通用链接反作弊方法,指的是这种反作弊方法不需要针对某种具体的作弊方式来做特征分析,并根据分析结果去构建有针对性的算法。不论采取哪种链接作弊方法,通用反作弊方法都是对其有效的。
 

  上节内容介绍了通用反作弊方法的整体思路,其中信任传播模型、不信任传播模型及图8-9所示的异常发现模型有一个共同特点,即不需要拿到作弊网页后进行单独的特征分析,然后根据分析结果构建具体算法。所以如果某个具体反作弊方法属于上述3种模型之一的话,都可以认为是一种通用反作弊方法。
 

  我们分别针对信任传播模型、不信任传播模型及如图8-9所示的异常发现模型介绍3个代表性算法,它们分别是TrustRank算法、BadRank算法和SpamRank算法。
 

  8.6.1 TrustRank算法
 

  TrustRank算法属于信任传播模型,基本遵循信任传播模型的流程,即算法流程由如下两个步骤组成。
 

  步骤一:确定值得信任的网页集合
 

  TrustRank算法需要靠人工审核来判断某个网页是否应该被放入信任网页集合,考虑到人工审核工作量过大,所以提出了两种初选信任网页集合的策略,在初选集合基础上再由人工审核。
 

  · 初选策略1:高PageRank分值网页,即认为高PageRank得分的网页是可信赖的,所以可以对网页计算PageRank值后,提取少量高分值网页作为初选页面集合。
 

  · 初选策略2:逆PageRank(Inverse PageRank),在PageRank计算过程中,是根据网页入链传入的权值计算的,逆PageRank与此相反,根据网页的出链传出的权值计算,即先将网页之间的链接指向关系反转,然后计算PageRank,选取得分较高的一部分页面子集作为初选页面。
 

  步骤二:将信任分值从白名单网页按照一定方式传播到其他网页
 

  在这个步骤,TrustRank算法的信任传播方式基于以下两个假设。
 

  · 假设1:距离可信网页越近越值得信任,这里的距离指的是通过多少步链接中转可以通达。
 

  · 假设2:一个高质量网页包含的出链越少,那么被指向的网页是高质量网页的可能性越大。反过来,如果出链越多,则被指向网页是高质量网页的可能性越小。
 

  基于以上两个假设,在信任传播阶段,TrustRank算法引入了信任衰减因子(Trust Dumpling)和信任分值均分(Trust Splitting)策略。
 

  所谓信任衰减,即距离可信网页越远的网页,通过传播得到的信任分值越少。图8-10说明了这个策略。在图8-10中,节点2从节点1传递得到信任分值b,节点3因为距离节点1更远,所以从节点2获得的分值为b的平方,因为链接中传递的信任分值都在0到1之间,所以等于信任分值随着距离的增大获得了衰减。
 

  
 

  所谓信任分值均分策略,即将网页获得的信任分值按照出链个数平均分配,如果一个网页有K个出链,则每个出链分配得到1/K的信任分值,并将这个分值传递给出链指向的页面,图8-11说明了这个策略。在图8-11中,节点1和节点2的信任度分值都是1,节点1有两个出链,所以每个出链分配得到1/2的信任分值,节点2有3个出链,所以每个出链获得1/3的信任分值,节点3被节点1和节点2同时指向,所以通过传递获得了5/6的信任分值,节点3再将自己获得的信任分值依次传递出去。
 

  
 

  通过结合以上两个传播策略可以在页面节点图之间传播信任分值,在最后的计算结果中,低于一定信任度的页面会被认为是作弊网页。
 

  8.6.2 BadRank算法
 

  BadRank据传是Google采用的反链接作弊算法。它是一种典型的不信任传播模型,即首先构建作弊网页集合,之后利用链接关系来将这种不信任分值传递到其他网页。
 

  BadRank包含的基本假设是:如果一个网页将其链接指向作弊页面,则这个网页也很可能是作弊网页;而如果一个网页被作弊网页指向,则不能说明这个网页是有问题的,因为作弊网页也经常将其链接指向一些知名网站。所以BadRank的基本思路是:找到那些有链接关系指向已知作弊网页的页面,这些页面很可能也是作弊网页。
 

  BadRank首先收集一批已经确认的作弊网页形成作弊网页集合(黑名单),黑名单内网页赋予较高的不被信任分值,而不被信任分值是通过网页的链接关系来进行传播的,其计算过程与PageRank基本相同,与PageRank不同的是,PageRank是根据网页的出链来进行权值传播,而BadRank是按照入链来进行权值传播,所以可以将BadRank理解为首先将网页之间的链接指向关系反转,假设页面A有链接指向页面B,则将链接反转为由B指向A,之后可以按照PageRank的计算方法进行计算。
 

  BadRank的计算思路是非常有代表性的,后续提出的ParentRank及Anti-Trust PageRank在整体思路上与BadRank是一致的,基本上都是不信任传播模型的具体实现实例。
 

  BadRank的计算思路很明显和TrustRank是互补的,一个方法是从黑名单出发传播不信任关系,另外一个是从白名单出发传播信任关系,所以两者有天然的互补性。
 

  8.6.3 SpamRank
 

  SpamRank是一种典型的符合异常发现模型的反作弊方法,也就是说,首先定义正常的网页或者链接关系应该满足哪些特性,如果某些网页不满足这些特性,则可以被认为是异常的,而这些异常网页很可能是作弊网页。
 

  SpamRank是构建在PageRank计算之上的反作弊算法,PageRank是网页重要性评价指标,通过全局的链接关系可以迭代计算网页的最终PageRank值。对于某个网页A来说,在最终获得其PageRank值后,可以分析获得哪些网页对于页面A的最终PageRank计算有比较重要的影响,这些网页被称为网页A的支持者(Supporter)。
 

  SpamRank的基本假设是:对于正常页面来说,其支持者页面的PageRank值应该满足Power-Law统计分布,即PageRank值有大有小。而作弊网页则不然,其支持者页面的PageRank值分布不满足Power-Law分布,具有如下3个特点。
 

  1.支持者页面数量非常巨大。
 

  2.支持者页面的PageRank值得分都较低。
 

  3.支持者页面的PageRank值都落在一个较小的浮动范围内。
 

  SpamRank就是利用了作弊网页的支持者PageRank分值的不正常分布规律来自动发现可能的作弊网页的。首先计算网页的支持页面有哪些,之后判断其支持页面的PageRank分布是否违反了Power-Law分布,对于那些明显违反规律的页面作为可疑作弊页面。最后,类似于BadRank的思路,通过这些可疑页面的链接关系,发现更多可能有问题的网页,作为可能的作弊网页。
 

  在SpamRank算法提出后,又陆续有类似思路的算法提出,比如截断PageRank算法(Truncated PageRank)等在基本思想上和SpamRank算法思路基本相近。这些都是比较典型的符合异常发现模型的反作弊算法。
 

  这些都是比较典型的符合异常发现模型的反作弊算法。
 

相关内容推荐:

Top