%0 Journal Article %T 一种基于词聚类的文本特征描述方法 %A 陈炯 %A 张永奎 %J 计算机系统应用 %D 2011 %I %X 针对文本挖掘中存在的特征空间高维性问题,提出了一种基于词聚类的文本特征描述方法,旨在通过机器学习的方法挖掘词汇之间的语义关联,动态构造特定领域的概念词典,借助构造的概念来描述文本的特征,该方法不借助主题词典,先从训练语料中对词的共现情况进行分析,用词聚类(word clustering)生成由种子词(seedwords)表示的代表某一主题概念的词类,然后用种子词作为文本的特征项。实验表明,该方法不仅压缩了特征空间的维数,也克服了HowNet 中概念信息的局限性,提高了文本分类的精确度。 %K 文本特征描述 %K 词共现 %K 词聚类 %K 种子词 %U http://www.alljournals.cn/get_abstract_url.aspx?pcid=5B3AB970F71A803DEACDC0559115BFCF0A068CD97DD29835&cid=8240383F08CE46C8B05036380D75B607&jid=D4F6864C950C88FFCE5B6C948A639E39&aid=B23A555E4E5C3819F8BE137F9A364077&yid=9377ED8094509821&vid=A04140E723CB732E&iid=0B39A22176CE99FB&sid=CC0ECB9C52F1B85F&eid=1B64850025D0BBBE&journal_id=1003-3254&journal_name=计算机系统应用&referenced_num=0&reference_num=10