%0 Journal Article %T 基于gate语义标注的web信息的自动抽取 %A 聂卉 %A 黄贵鹏 %J 图书情报工作 %D 2010 %X ?重点研究基于语义标注样本的web信息自动抽取的实现方法。借助自然语言处理框架gate,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为sdom树。从sdom树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。 %K web信息抽取 %K 语义标注 %K 包装器 %U http://124.16.154.130:8080/lis/CN/abstract/abstract10683.shtml