%0 Journal Article %T 基于词频统计的文本关键词提取方法 %A 丁亚飞 %A 李晓超 %A 赵书良 %A 韩玉辉 %J 计算机应用 %D 2016 %R 10.11772/j.issn.1001-9081.2016.03.718 %X 摘要 针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TF-IDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间 %K 词频统计 %K 齐普夫定律 %K 同频词 %K 关键词提取 %K TF-IDF算法 %U http://www.joca.cn/CN/abstract/abstract19106.shtml