%0 Journal Article %T 基于差异—相似矩阵的文本降维方法 %A 黄晓春 %A 晏蒲柳 %A 夏德麟 %A 陈健 %J 计算机应用 %D 2005 %X ?由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用。基于差异—相似矩阵(dsm)的方法在很大程度上降低了文档空间的维度。已经分好类的文集经过预处理后被表示成特征项—文档矩阵,再转化为差异—相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述。通过对差异—相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则。实验说明,对于大规模文集,dsm方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率。 %K 文本分类 %K 维度消减 %K 差异&mdash %K 相似矩阵 %U http://www.joca.cn/CN/abstract/abstract14308.shtml