%0 Journal Article
%T Text Categorization Based on Classification Rules Tree by Frequent Patterns
基于分类规则树的频繁模式文本分类
%A CHEN Xiao-Yun
%A CHEN Yi
%A WANG Lei
%A LI Rong-Lu
%A HU Yun-Fa
%A
陈晓云
%A 陈袆
%A 王雷
%A 李荣陆
%A 胡运发
%J 软件学报
%D 2006
%I
%X 基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(k nearest neighbor)和SVM(support vectormachines),因此是一种很有应用前景的文本分类方法.
%K frequent pattern
%K text categorization
%K term frequency
%K association rule
%K classification rule
频繁模式
%K 文本分类
%K 词频
%K 关联规则
%K 分类规则
%U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=7735F413D429542E610B3D6AC0D5EC59&aid=400D32072ECC0919&yid=37904DC365DD7266&vid=BCA2697F357F2001&iid=94C357A881DFC066&sid=5E7C14876566242F&eid=2E7DE3EE3BC61ED0&journal_id=1000-9825&journal_name=软件学报&referenced_num=12&reference_num=12