%0 Journal Article %T 基于页面block的web档案采集和存储 %A 宋杰? %A 王大玲? %A 鲍玉斌? %A 申德荣? %J 软件学报 %P 275-290 %D 2008 %X 提出了基于页面block对web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面block的web档案(webarchive)采集和存储方法能够很好地适应web档案的管理方式,并对基于web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源. %K web档案 %K 页面分区 %K 页块 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20080210&flag=1