XML地图 黑帽SEO培训为广大SEO爱好者提供免费SEO教程,致力于SEO优化、SEO服务
首页 > SEO培训 » 搜索引擎专用链接反作弊技术

搜索引擎专用链接反作弊技术

2018-10-12T11:17:21 | 人围观 | 关键词:搜索引擎专用链接反作弊技术--SEO培训


  专用链接反作弊技术
 

  上一节所述的通用链接反作弊技术与具体作弊方法无关,具有通用性,只要作弊手段采用了链接分析,一般都会有一定的识别作用。但是通用性的代价是针对某些具体的链接作弊方法的,其识别效果因为没有针对性,所以可能不会太好,专用的链接反作弊技术则是非常有针对性的设计算法,往往效果较好。本节简述针对链接农场和Google轰炸的专用反作弊技术。
 

  8.7.1 识别链接农场
 

  链接农场是作弊者精心构建起来的页面链接关系,和正常的链接必然有不同之处。很多研究通过比较正常网页之间链接关系的统计规律,同时研究链接农场网页之间的链接关系分布规律,通过比较两者之间的差异来识别链接农场。
 

  识别算法比较常用的统计特征包括如下几条。
 

  1.网页出链的统计分布规律,正常网页的出链满足Power-law分布,作弊网页的出链违反该分布。
 

  2.网页入链的统计分布规律,正常网页的入链也满足Power-law分布,作弊网页则违反该分布。
 

  3.URL名称统计特征,作弊网页的网址倾向于较长,包含更多的点画线和数字等。
 

  4.很多作弊网页的URL地址尽管不同,但是常常会对应同一个IP地址。
 

  5.网页特征会随着时间变化,比如入链的增长率、出链的增长率等,正常网页和作弊网页在这些变化模式上是不同的。
 

  除了对比统计特征外,还可以利用链接农场的结构特征。链接农场的一个结构特征是农场内的网页之间链接关系非常紧密,这也是可以直接用来进行作弊识别的特征。使用一些紧密链接子图自动发现算法,可以识别出这些紧密链接的页面子图,研究表明这种紧密链接子图中很大比例确实是由作弊网页构成的。
 

  8.7.2 识别Google轰炸
 

  Google轰炸利用了指向目标网页的锚文字来操纵搜索结果排名,而锚文字很可能和被指向的页面没有任何语义关系,所以一个直观的判断方式即为判断锚文字是否和被指向页面有语义关系,如果有语义关系存在,则被判断为正常链接,否则可被判断为作弊链接。
 

  但是事实上由于锚文字都比较短小,如果在字面上和被指向页面内容没有直接关系也是很正常的,所以自动判断Google轰炸作弊具有较大难度。
 

  8.8 识别内容作弊
 

  上述章节是针对链接作弊方法的一些可能反制方法,本节叙述针对内容作弊的一些反制方法。针对内容作弊,往往可以采用一些启发规则或者内容统计分析的方式进行识别。
 

  比如对于重复出现关键词这种作弊方式,可以判断文本内一定大小的窗口中是否连续出现同一关键词,如果是的话则消除掉重复出现的内容。
 

  比如对于标题关键词作弊,可以判断标题词汇在文本正文出现的比例和权重,如果达到一定条件则可判断为标题关键词作弊。
 

  也可以采用一些统计手段来进行内容作弊识别,比如统计正常网页中句子长度的规律、停用词的分布规律或者词性分布规律等,通过比较页面内容统计属性是否异常来识别内容作弊的情况。
 

  8.9 反隐藏作弊
 

  常见的隐藏作弊方式包括页面隐藏和网页重定向,下面介绍一些技术思路来识别隐藏作弊网页。
 

  8.9.1 识别页面隐藏
 

  页面隐藏的本质特征是向搜索引擎爬虫和用户推送不同内容的页面。所以一个直观的识别这种作弊方式的方法就是对网页做两次抓取,第1次是正常的搜索引擎爬虫抓取,第2次抓取则以模拟人工访问网页的方式抓取。如果两次抓取到的内容有较大差异,则会认为是作弊页面。很明显,这种方法虽然有效,但是对所有页面做多次抓取的成本显然非常高。
 

  考虑到以上方法的效率问题,研究人员希望将识别范围缩小。因为作弊者大都具有商业动机,所以他们认为包含一些热门查询,以及具有商业价值查询词的页面更可能会采取隐藏作弊。可以从查询日志中挖掘最热门的查询,同时挖掘出能够引发搜索结果中出现“赞助商链接”的商业性词汇。经过分别使用搜索引擎爬虫和模拟人工访问,多次抓取排在搜索引擎结果前列的网页,并比较两次下载页面的单词重叠度。研究人员发现包含商业性词汇的页面中,如果网站采取了页面隐藏,则有98%的内容是作弊页面,而在包含热门查询词的网页中,这个比例是73%。
 

  8.9.2 识别网页重定向
 

  网页重定向是很容易识别的,目前大部分搜索引擎对于采取了重定向的网页都会有相应的降权惩罚。但是,采取了重定向的网页未必一定就是作弊网站,如何更精确地识别此类作弊方式是个值得探讨的问题。
 

  Strider系统给出了根据网页重定向来识别到底哪些是作弊网页的解决方案。这个系统首先收集一批作弊页面,然后根据这批作弊网页进行扩展,如果有在论坛中和这些作弊URL经常一起出现的网页链接,会逐步将其扩充进可疑页面集合。之后,依次访问这些可疑URL,并记录下访问时是否做了重定向及重定向到哪个页面,如果某个页面被很多可疑URL重定向指向,则认为这个重定向地址是作弊网页,反过来,那些重定向到这个作弊网页的可疑URL也被认为是作弊网页,其他可疑URL则可以被认为是正常网页。
 

  8.10 搜索引擎反作弊综合框架
 

  只要操纵搜索引擎搜索结果能够带来收益,那么作弊动机就会始终存在,尤其是在网络营销起着越来越重要宣传作用的时代尤其如此。作弊与反作弊是相互抑制同时也是相互促进的一个互动过程,“道高一尺,魔高一丈”的故事不断重演。
 

  本章前述内容主要是以技术手段来进行反作弊,而事实上纯粹技术手段目前是无法彻底解决作弊问题的,必须将人工手段和技术手段相互结合,才能取得较好的反作弊效果。技术手段可以分为相对通用的手段和比较特殊的手段,相对通用的手段对于可能新出现的作弊手法有一定的预防能力,但是因为其通用性,所以针对性不强,对特殊的作弊方法效果未必好。而专用的反作弊方法往往是事后诸葛亮,即只有作弊行为已经发生并且比较严重,才可能归纳作弊特征,采取事后过滤的方法。人工手段则与技术手段有很强的互补性,可以在新的作弊方式一出现就被人发现,可以看做一种处于作弊进行时的预防措施。所以从时间维度考虑对作弊方法的抑制来说,通用反作弊方法重在预防,人工手段重在发现,而专用反作弊方法重在事后处理,其有内在的联系和互补关系存在。
 

  一个有效的搜索引擎反作弊系统一定是一个综合系统,有机融合了人工因素、通用技术手段和专用技术手段。图8-12给出了一个综合反作弊系统的框架,用户可以在浏览搜索结果甚至是上网浏览时随时举报作弊网页,比如Google推出了浏览器插件来方便用户举报,搜索引擎公司内部会有专门的团队来审核与主动发现可疑页面,经过审核确认的网页可以放入黑名单或者白名单中。
 

  
 

  通用的反作弊方法大体有两类,一种类似于BadRank的思路,即从黑名单出发根据链接关系探寻哪些是有问题的网页;另外一种类似于TrustRank的思路,即从白名单出发根据链接关系排除掉那些没有问题的网页。两者显然有互补关系,通过两者搭配可以形成有效的通用反作弊屏障。这种通用方法的好处是具有预防性,哪怕是新出现的作弊方式,只要作弊网页需要通过链接关系进行操纵,那么通用方法通用技术手段和专用技术手段。图8-12给出了一个综合反作弊系统的框架,用户可以在浏览搜索结果甚至是上网浏览时随时举报作弊网页,比如Google推出了浏览器插件来方便用户举报,搜索引擎公司内部会有专门的团队来审核与主动发现可疑页面,经过审核确认的网页可以放入黑名单或者白名单中。
 

  
 

  通用的反作弊方法大体有两类,一种类似于BadRank的思路,即从黑名单出发根据链接关系探寻哪些是有问题的网页;另外一种类似于TrustRank的思路,即从白名单出发根据链接关系排除掉那些没有问题的网页。两者显然有互补关系,通过两者搭配可以形成有效的通用反作弊屏障。这种通用方法的好处是具有预防性,哪怕是新出现的作弊方式,只要作弊网页需要通过链接关系进行操纵,那么通用方法就能在一定程度上起到作用。但是正是因为通用方法的通用性,所以其反作弊思路没有针对性,对于一些特殊的作弊手段无法有效发现。此时,针对特殊作弊手段的方法形成了第3道屏障,即搜索引擎公司针对具体作弊方法采取专用技术手段来进行识别,因为有针对性所以效果较好,但是缺点在于一类反作弊方法只能识别专门的作弊手段,对于新出现的作弊方法往往无能为力,而且在时间上往往滞后于作弊现象。
 

  综上所述,这几种反作弊方法是有互补关系存在的,有效融合三者才能够获得较好的反作弊效果。
 

相关内容推荐:

Top