OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

软件学报 2013

一种基于聚类的pu主动文本分类方法

DOI: 10.3724/SP.J.1001.2013.04467, PP. 2571-2583

刘露？,彭涛？,左万利？,戴耀康？

Keywords: pu(positive,and,unlabeled)文本分类,聚类,tfipndf(term,frequency,inverse,positive-negative,document,frequency),主动学习,可信反例,改进的rocchio

Full-Text Cite this paper Add to My Lib

Abstract:

文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是pu(positiveandunlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合svm主动学习和改进的rocchio构建分类器,并采用改进的tfidf(termfrequencyinversedocumentfrequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(rcv1,reuters-21578,20newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133