%0 Journal Article %T 基于dom的web文本分割 %A 罗建利 %J 图书情报工作 %D 2009 %X ?利用web文档的半结构化信息,提出一种基于dom的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的html标签信息,构建htmldom树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用dom树中的节点平滑平面文本分割的结果,初步实验表明该算法能有效提高web文本分割的精确度。 %K dom %K 文本分割 %K 主题边界 %K 文本节点 %U http://124.16.154.130:8080/lis/CN/abstract/abstract9791.shtml