XML地图 深圳SEO培训为广大SEO爱好者提供免费SEO教程,致力于SEO优化、SEO服务
首页 > SEO培训 » SEO搜索引擎检索质量评价标准

SEO搜索引擎检索质量评价标准

2018-10-11 | 人围观 | 关键词:


  SEO搜索引擎检索质量评价标准
 

  在搜索系统最终推出之前,一般都要对其性能进行评测。除了时间和空间等运行效率方面的评测外,更重要的是对搜索结果质量进行评测。研发人员可以根据测试结果选择效果较好的搜索技术,或验证搜索系统在真实环境中运行时的实际效果,以辅助系统不断进行设计、研究和改进。因此搜索系统的性能评测对于系统的研制和发展是至关重要的。
 

  如何评价搜索结果质量呢?最广为接受的评价标准是用精确率和召回率这两个指标来评价搜索质量。
 

  5.6.1 精确率与召回率
 

  给定一个固定的用户搜索请求,搜索系统将系统认为和用户请求相关的文档返回给用户。对于这次搜索行为,可以根据两个维度来将所有文档构成的集合划分成4个互不相交的子集(参考图5-17)。一个维度是:“该文档是否与用户发出的搜索请求相关”,由此维度,可以将整个文档集合划分为相关与不相关两种类型,图5-17中的第1列表示相关文档,第2列表示不相关文档;第2个维度是:“文档是否在本次搜索结果列表里”,由此维度,可以将整个文档集合划分为“在本次搜索结果列表”与“不在本次搜索结果列表”两种类型,图5-17中的第1行表示本次搜索结果包含的文档列表,第2行表示集合中不在本次搜索结果列表中出现的其他文档。
 

  [图片]图5-17 观察文档集合的两个维度
 

  将以上两个划分维度组合,把文档集合切割为4个互不相交的子集。如图5-17所示坐标中,左上角的子集代表“在本次搜索结果中与搜索请求相关”的文档,假设集合大小为N;右上角的子集代表“在本次搜索结果中与搜索请求不相关”的文档,假设集合大小为M;左下角的子集代表“在本次搜索结果之外与搜索请求相关”的文档,即那些本来应该由搜索系统返回但因为算法原因没有找到的相关文档,假设集合大小为K;右下角的子集代表“在本次搜索结果之外且与搜索请求无关”的文档,假设集合大小为L。
 

  在将文档集合划分为4个子集的基础上,我们可以对精确率和召回率进行定量描述,如图5-18所示是这两个指标的计算方法。
 

  [图片]图5-18 精确率与召回率
 

  所谓精确率,就是本次搜索结果中相关文档所占的比例,分子为本次搜索结果中的相关文档(即图5-17中的左上角子集),分母为本次搜索结果包含的所有文档(即图5-17中的第1行),两者相除得到精确率。
 

  所谓召回率,即本次搜索结果中包含的相关文档占整个集合中所有相关文档的比例,分子与精确率分子相同,即本次搜索结果中包含的相关文档,分母为整个文档集合所包含的所有相关文档(即图5-17中的第1列),两者相除得到召回率。召回率用于评价搜索系统是否把该找出的文档都找出来了。
 

  精确率和召回率是常见的评估检索系统的指标,但是对于搜索引擎来说,精确率更为重要,因为搜索引擎处理海量数据,一方面在这种环境下,对于某个查询,找到与这个查询相关的所有文档(也即计算召回率公式的分母)难度很大,导致召回率很难准确计算;另外一方面由于数据量比较大,所以能够满足用户需求的文档量也很大,用户很少需要看到所有相关文档,往往是看到一部分即可满足搜索需求,全部召回相关文档对于满足用户需求意义也不是特别重要。而相对应地,精确率在搜索引擎场景下就非常重要了,因为排在搜索列表前列的搜索结果如果有太多不相关的内容,直接影响用户体验,所以对于搜索引擎质量评估来说,往往更加关注精确率。
 

  上面介绍的精确率和召回率的计算方法只是通用的计算框架,在具体评估时,需要做更加精细的考虑。常用的评估搜索引擎精度的指标有P@10和MAP。
 

  5.6.2 P@10指标
 

  p@10指标更关注搜索结果排名最靠前文档的结果质量,它用于评估在搜索结果排名最靠前的头10个文档中有多大比例是相关的。图5-19是p@10计算的一个示例,打对钩的文档代表与用户查询相关,叉号代表无关,在这个例子中,头10个文档中包含了5个相关文档,所以其精度为0.5。
 

  [图片]图5-19 p@10指标
 

  5.6.3 MAP指标(Mean Average Precision)
 

  MAP指标是针对多次查询的平均准确率衡量标准,是评价检索系统质量的常用指标,如果习惯阅读信息检索相关学术论文的话,会经常在论文中遇到这个评价指标。
 

  要了解MAP,首先需要了解AP(Average Precision)。MAP是衡量多个查询的平均检索质量的,而AP是衡量单个查询的检索质量的,图5-20是如何计算某次检索的AP得分的示意图。例子中假设与用户查询相关的文档有3个,经过搜索系统输出后,分别排在搜索结果的第2位、第4位和第6位,如果是一个理想的搜索系统,理论上应该将这3个文档排在第1位、第2位和第3位,所以用这3个文档的理想排名位置除以实际排名位置,会得到每个文档的得分,3个文档求平均值得到本次搜索的AP值0.5。AP值越高,则意味着越接近理想的搜索结果,说明检索系统质量越好。如果例子中的3个相关文档分别处于搜索结果的第1位、第2位和第3位,那么AP值为1,这就是理想的搜索结果。AP指标兼顾了排在前列结果的相关性和系么AP值为1,这就是理想的搜索结果。AP指标兼顾了排在前列结果的相关性和系统召回率,这是为何被经常采用的原因。
 

  [图片]图5-20 AP计算过程
 

  AP是针对单次查询的衡量指标,如果存在多组查询,那么每个查询都会有自己的AP值,对这些查询的AP值求平均值,就得到了MAP指标。
 

相关内容推荐:

Top