OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

中山大学学报（自然科学版） 2016

应用语义相似的海量网页文本去重策略研究

吕立,孙咏,王丹妮,薛剑

Keywords: 语义相似,近似检测,信息指纹,特征提取

Full-Text Cite this paper Add to My Lib

Abstract:

摘要互联网的高速发展使得信息的获取以及发布几乎变的无成本，因此不免会存在着大量的近似网页，这些网页之间仅仅只有少量的内容是不同的，但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时，必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页，改进了提取中文文本内容特征及计算其权值的方法，同时结合词语之间的语义联系，提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上，利用分布式编程模型进行实验，近似网页检测的效果得到了明显的提升，更加适用于当今海量数据环境下

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133