【词频】的意思和解释
【词频】是什么意思(来源:辞书)
- 词频(term frequency,简称TF)是指文件中词汇出现的频率或是次数,是衡量一个词汇重要性的一种指标。在各种资讯检索模型中,如向量空间模型、机率模型、语言模型,都会用到词频的概念。一般而言,一个词汇在某一篇文件中出现的次数越高,即词频越高,则其在该篇文件中的代表性越重要。例外的情况,有虚词、连接词、代名词等功能词(function words),这些词汇,经常有高词频,却不带有任何内容意义,在文件的词汇处理过程,常被特意地停用、过滤掉,因而被称为停用词(stop words)。此外,词汇的重要性,也会考虑到这个词汇出现在所有文件中的篇数,亦即其文件篇数(document frequency,简称DF)。若其出现在越多篇文件中,即DF越高,则表示该词汇可能为常用字,故而重要性越低,相对于其反向文件篇数(inverse document frequency,简称IDF)也低。例如,在一批有关电脑的文件中,搜寻电脑这个词汇,几乎所有的文件都会被找回,则不管其词频(TF),电脑在这批文献中,对检索没有帮助,其重要性要降低,刚好对应到其IDF也低。因此,词汇的重要性,经常以词频(TF)以及反向文件篇数(IDF)这两个概念,一起考虑。真正在应用词频的概念时,常会对词频做转换而获得一个重要性数值。例如,词汇A与词汇B在某一篇文件中各出现TF(A)=8次与TF(B)=2次,但不代表词汇A的重要性是词汇B的8/2=4倍。常用的转换作法,有取对数函数,如log2( TF(A) ) = log2(8) = 3,log2( TF(B) ) = log2(2) = 1,如此词汇A的重要性只比词汇B多3倍。此外,还有对文件内所有的词汇频率做正规化处理,例如TF(A)除以该文件所有词汇的总词频(等于词汇A的出现机率),词汇的重要性,从频率的次数分布,变成词汇的出现机率分布,如此可以在机率的理论中探讨词汇与文件的各种特性。
--作者:曾元显
【词频】 图片鉴赏
相关词语
查字典的部份资料来自网络或由网友提供,不保留版权,如有侵权,请与我们联系以从站上删除! 免责声明:本站非营利性站点,以方便网友为主,仅供学习。
Tip:SCCG