|
计算机科学 2014
基于短语的中文标签自动生成混合算法Keywords: 关键词抽取,标签生成,短语,中文标签,算法中图法分类号tp301.4文献标识码a Abstract: 对中文文档标签生成的算法进行了研究,提出了一种中文文档标签生成的混合算法(hybridtagsgenerationalgorithm)。鉴于短语在表达文档主题方面的优势,先进行短语模式匹配,然后利用短语的统计特性,综合考虑tf-idf、词跨度和位置3个特征进行权重计算,从而抽取出权重较高的词语或短语作为标签。通过对实验数据的分析表明,该算法在查准率方面表现较好。通过人工比对可知,标签表达文档内容主题的效果相当或优于测试集标准答案的比率超过六成,取得了比较好的结果。
|