全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

面向情报获取的主题采集工具设计与实现

Keywords: 网络爬虫,主题采集,链接筛选,dom树

Full-Text   Cite this paper   Add to My Lib

Abstract:

?面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、url分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中url分析与提取采用基于链接类型的url筛选方法,实现正文网页url的筛选;模板学习和正文抽取部分采用基于dom树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133