XML地图 黑帽SEO培训为广大SEO爱好者提供免费SEO教程,致力于SEO优化、SEO服务
首页 > SEO优化 » 页面关键词相关性算法:TF-IDF

页面关键词相关性算法:TF-IDF

2018-12-13T22:56:37 | 人围观 | 关键词:页面关键词相关性算法:TF-IDF--SEO培训


  页面关键词相关性算法:TF-IDF
 

  文本分类中,如何定义一个词出现的频率呢?如果仅仅用这个词在文章中出现的次数来定义词频,那么某个词在长文件中的词频一般会大于这个词在短文件中的词频。不能说这个词就是长文件一个好的标识词,为了避免这种情况可以使用TF来表示,TF=某词出现次数/总词数。还有像汉语中“的”、“地”、“我们”等这些词,在文章中出现的频率很高,但是对文章分类的作用几乎没有,所以如果只用TF来定义词频,无法避免此类问题,可以再定义IDF,IDF=lg(总文章数/出现某个词的文章数)。这样两种情况都考虑,取它们的乘积(词频=TF*IDF)作为某个词的词频效果就会很好。



 

  例如:有1000篇文章,其中含有Android这个词的文章有10篇,在有1625个词的一篇文章中Android出现了26次,则Android这个词在这篇文章中的词频=
 

相关内容推荐:

Top