%0 Journal Article %T 基于DOM树层次特征的多记录网页抽取* %A 陈巧灵 %A 廖祥文 %A 魏晶晶 %A 陈国龙 %J 模式识别与人工智能 %P 125-131 %D 2015 %R 10.16451/j.cnki.issn1003-6059.201502004 %X 现有的多记录网页抽取方法通常是对文件对象模型(DOM)树进行整体纵向结构分析,计算的结构相似度普遍偏低,使其不能正确识别记录区域.文中提出基于DOM树层次特征的记录抽取方法,该方法利用DOM树不同层次节点的不同作用对其进行横向分析,将寻找相似子树的问题转换为寻找节点块的相似子块,最后采用双向拓展搜索非重叠重复子块进行记录分隔.实验表明该方法能抽取现有抽取器无法处理的页面,多个数据源的抽取结果验证其有效性. %K 信息抽取 %K 多记录网页 %K 抽取算法 %U http://manu12.magtech.com.cn/Jweb_prai/CN/abstract/abstract10280.shtml