OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

- 2018

基于 Scrapy 技术的数据采集系统的设计与实现

DOI: 10.3969/ j. issn.1673-629X.2018.10.037

Keywords: Scrapy, Django, 数据采集, 网络爬虫

Full-Text Cite this paper Add to My Lib

Abstract:

面对互联网信息极其庞大并且经常更新的问题,基于 Scrapy 爬虫框架设计并实现了一种数据采集系统。不仅可以根据用户自身需求获取数据,还可以对自身的采集任务进行简单的管理。介绍了系统开发的关键技术,探讨了系统框架设计、功能模块和数据库设计方案。使用 Django MTV 模式进行开发,底层数据采集框架使用 Scrapy,一种使用 Python 编写实现的网站数据异步爬虫应用框架,网页解析采用 XPath 和 Python 正则相结合的方法,采用 jQuery 树插件 zTree 实现了任务的树形管理,使用 bootstrap 实现了数据的任务名加关键字组合查询和页面效果。系统主要分为网页解析模块、数据处理模块、系统登录模块、任务新建模块、任务管理模块和数据查询模块。最后分析了浏览器端和服务器端的数据交互, 以及网页数据定位和解析的实现

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133