%0 Journal Article %T Text Categorization Based on Classification Rules Tree by Frequent Patterns
基于分类规则树的频繁模式文本分类 %A CHEN Xiao-Yun %A CHEN Yi %A WANG Lei %A LI Rong-Lu %A HU Yun-Fa %A
陈晓云 %A 陈袆 %A 王雷 %A 李荣陆 %A 胡运发 %J 软件学报 %D 2006 %I %X 基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(k nearest neighbor)和SVM(support vectormachines),因此是一种很有应用前景的文本分类方法. %K frequent pattern %K text categorization %K term frequency %K association rule %K classification rule
频繁模式 %K 文本分类 %K 词频 %K 关联规则 %K 分类规则 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=7735F413D429542E610B3D6AC0D5EC59&aid=400D32072ECC0919&yid=37904DC365DD7266&vid=BCA2697F357F2001&iid=94C357A881DFC066&sid=5E7C14876566242F&eid=2E7DE3EE3BC61ED0&journal_id=1000-9825&journal_name=软件学报&referenced_num=12&reference_num=12