%0 Journal Article %T 关于重复词句提取的两种算法分析 %A 殷波 %A 蒋华 %J 计算机应用 %D 2009 %X ?针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。stc算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合stc算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行stc算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。 %K 重复词句 %K 重复序列 %K 后缀树 %U http://www.joca.cn/CN/abstract/abstract11123.shtml