%0 Journal Article %T 应用语义相似的海量网页文本去重策略研究 %A 吕立 %A 孙咏 %A 王丹妮 %A 薛剑 %J 中山大学学报(自然科学版) %D 2016 %X 摘要 互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下 %K 语义相似 %K 近似检测 %K 信息指纹 %K 特征提取 %U http://xwxt.sict.ac.cn/CN/abstract/abstract3427.shtml