%0 Journal Article %T 基于标签路径特征融合的在线Web新闻内容抽取 %A 刘鹏程 %A 吴信东 %A 吴共庆 %A 徐?昊 %A 李莉 %A 胡学钢 %A 胡骏 %J - %D 2016 %R 10.13328/j.cnki.jos.004868 %X 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法 %K 内容抽取 Web新闻 标签路径特征 组合特征选择 特征融合 %U http://www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=4868&flag=1