全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于网页正文结构和特征串的相似网页去重算法

Keywords: 网页去重,网页标签值,高频标点,特征码,网页指纹相似度

Full-Text   Cite this paper   Add to My Lib

Abstract:

?为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用bloomfilter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了o(n)。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133