题目:信息检索中词项具有什么样的统计特征?《信息检索导论》P59
喵查答案:1)Heaps定律:对于词项数M来说和词条有如下关系,
,T是文档集合中的词条个数。参数k和b的典型取值为:30≤k≤100,b≈0.5。
2)Zipf定律:如果t1是文档集中出现最多的词项,,t2是文档集中的出现第二多的词项,依此类推,那么,排名第i多的词项文档集频率(即词项t出现的次数除以该文件的总词语数) cf i与 1/i成正比,即![]()
题目:信息检索中词项具有什么样的统计特征?《信息检索导论》P59
喵查答案:1)Heaps定律:对于词项数M来说和词条有如下关系,
,T是文档集合中的词条个数。参数k和b的典型取值为:30≤k≤100,b≈0.5。
2)Zipf定律:如果t1是文档集中出现最多的词项,,t2是文档集中的出现第二多的词项,依此类推,那么,排名第i多的词项文档集频率(即词项t出现的次数除以该文件的总词语数) cf i与 1/i成正比,即![]()