|
计算机科学 2011
基于缩进轮廓的html文档重复模式挖掘方法Keywords: 重复模式挖掘,web数据抽取,web内容挖掘,缩进轮廓,串联重复波段 Abstract: html文档重复模式挖掘是找到web页面编码模版的关键,是web数据自动抽取和web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的html文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由html文档每行代码的缩进值及行首的html标签构成的数据结构,它是html文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘html文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。
|