TF/IDF算法的白话文解释

浏览 发布时间 2010/12/02

和大家一起分享过很多经验性东西,今天咱们就回归到技术层面,聊一聊TF/IDF算法那点事。

首先TF/IDF是应用于,常见内容加权技术,准确说TF/IDF更像是一个统计算法,可以根据一个字、一个词,去判断它在这篇文章中的重要程度,如果结合到网站优化上面就是:

一个关键词,在这篇文章是否重要?是否是这篇文章的核心,是辅助搜索引擎判断这篇文章主题性的算法,你也可以当做meta标签属性keywords来理解。

用数学方式来解释下TF/IDF算法

如果你的关键词是“网站优化”8个字节,如果一篇阅读正常文章,一共1000个字节,你出现这8个字节的频率,就是8/1000=0.8%。

看到这里,大家可能会觉得TF/IDF算法不就是密度吗?事实上,它就是密度,但是咱们再用一个例子解释下。

用网站方式来解释下TF/IDF算法

在昨天的文章中,我就提到了一个锚文本策略问题,如果应用TF/IDF算法解释的话。

本站关键词“北京网站优化”可是呢?我谈网站优化最多,却很少谈及北京,那么我的TF/IDF算法结果就是网站优化优先。

如果你觉得上面解释还很抽象的话,可以使用谷歌管理员工具,提供网站关键词重要性,就是网站的TF/IDF。

本文经过整理,将原本苦涩知识,尽量以一种更加大众化方式,和大家分享,如果我在解释中有不足和错误,请在评论中指出,第一时间内回复,谢谢了。

文章作者:北京网站优化@红光(QQ:86541358)
文章地址:http://www.010wangzhanyouhua.com/TF-IDF/
尊重别人的劳动成果,你的劳动成果也一定会被尊重。
文章来源:除注明来自转载,其余全部为原创文章。
旨在和大家分享网站优化经验、普及网站优化知识。
如果你喜欢本站的文章,转载时请保留文章出处,谢谢。 var _bdhmProtocol = (("https:" == document.location.protocol) ? " https://" : " http://"); document.write(unescape("%3Cscript src='" + _bdhmProtocol + "hm.baidu.com/h.js%3F228e1f36afdcb394a9b26b873488ff28' type='text/javascript'%3E%3C/script%3E"));