%0 Journal Article
%T 一种嵌入分布信息的Web文档相似性度量
%A 孙春红
%A 杨明
%J 南京师范大学学报(工程技术版)
%P 66-70
%D 2008
%X Web文档间的相似性度量是Web文本分类的关键,有效的相似性度量策略可改进Web文本分类的精度.经典的向量空间模型(VSM)仅考虑网页中单词的出现频率,未有效利用单词的分布信息,因而影响了网页的分类精度.论文计算了网页中单词分布位置的均值和方差,并将之引入到网页的相似性计算中,提出了一种直接嵌入分布信息的新的网页相似性度量方法.该方法因合理利用单词的出现频率及其分布信息,可有效改进和拓展经典的网页相似性度量策略.实验结果表明,该网页相似性度量方法是有效可行的.
%K Web网页的相似性度量
%K VSM
%K 分布信息
%K Web网页分类
%U http://njsfdxgckj.paperonce.org/oa/DArticle.aspx?type=view&id=200803015