%0 Journal Article %T 一种基于加权lda模型和多粒度的文本特征选择方法 %A 李湘东 %A 巴志超 %A 黄莉 %J 现代图书情报技术 %D 2015 %X ?[目的]为改善图书和期刊书目信息的分类性能,结合书目文本的体例结构特点,提出一种基于加权lda模型和多粒度的文本特征选择方法。[方法]在点互信息(pmi)模型的基础上,结合词性、位置等要素修正特征词的权重并扩展至lda的生成模型中,以抽取表意性较强的粗粒度特征;结合tf-idf计算模型采用一定策略获取细粒度特征,基于多粒度特征作为核心特征词集表征书目文本;采用knn、svm等算法实现书目文本的分类。[结果]在自建图书、期刊材料上进行分类实验,与lda方法以及传统特征选择方法相比,该方法分类准确率分别平均提高3.60%和4.79%。[局限]实验材料的数量以及丰富度有待进一步扩展;需探索更多的加权策略模型进行实验,以提高书目文本的分类效果。[结论]实验结果表明,该方法是有效的、可行的,能够提高特征选择后的特征词集对文本的表示能力,从而提高文本分类的准确率。 %K 书目信息 %K 加权lda模型 %K 多粒度特征 %K 文本分类 %K 特征选择 %K 利用《知网》和领域关键词集扩展方法的短文本分类研究 %U http://www.infotech.ac.cn/CN/abstract/abstract4052.shtml