%0 Journal Article %T 一种嵌入分布信息的Web文档相似性度量 %A 孙春红 %A 杨明 %J 南京师范大学学报(工程技术版) %P 66-70 %D 2008 %X Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的. %K Web网页的相似性度量 %K VSM %K 分布信息 %K Web网页分类 %U http://njsfdxgckj.paperonce.org/oa/DArticle.aspx?type=view&id=200803015