全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

关于重复词句提取的两种算法分析

Keywords: 重复词句,重复序列,后缀树

Full-Text   Cite this paper   Add to My Lib

Abstract:

?针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。stc算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合stc算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行stc算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133