%0 Journal Article %T 基于傅立叶变换的网页去重算法 %A 陈锦言 %A 孙济洲 %A 张亚平 %J 计算机应用 %D 2008 %X ?去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行kl展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断。实验结果表明该方法可对网页实现较好的去重。 %K 网页去重 %K k-l展开 %K 傅立叶变换 %K 维数压缩 %U http://www.joca.cn/CN/abstract/abstract11405.shtml