%0 Journal Article %T 基于重复模式的论坛信息抽取研究 %A 韩普 %A 王泽 %J 南京师范大学学报(工程技术版) %P 74-77 %D 2010 %X 针对现有网络论坛信息抽取的不足,提出了一种基于重复模式发现算法的论坛信息抽取方法.该方法首先利用Sgm-lReader解析器将HTML文档转换为格式规范的XHTML文档,然后通过计算XHTML文档结构中DOM子树相似度,自动发现论坛页面结构的重复模式.该方法通过自动定位重复模式进行论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题.试验结果表明,该方法具有较好的准确性、通用性和实用性. %K 重复模式 %K 论坛抽取 %K 信息抽取 %U http://njsfdxgckj.paperonce.org/oa/DArticle.aspx?type=view&id=201003017