全部 标题 作者 关键词 摘要
Keywords: 重复词句,重复序列,后缀树
Full-Text Cite this paper Add to My Lib
?针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。stc算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合stc算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行stc算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133