大数据时代基于统计特征的情报关键词提取方法研究
, PP. 64-68
Keywords: 大数据?,关键词提取?,词偏度?,网络情报监测
Abstract:
?为克服传统词频-逆向文本频率(tfidf)关键词提取精度低下的缺点,文章提出一种基于多级统计特征的关键词提取(tfidf-sk)算法。该算法采用词语tfdf指标的离散系数公式来剔除噪音词,构建基于词偏度、词语位置权重信息和词频-逆向文本频率的评估函数来度量关键词的重要性。实验结果表明该算法优于传统方法,在大数据时代网络情报监测中具有广泛的应用价值。
Full-Text