|
重庆邮电大学学报(自然科学版) 2015
移动互联网用户行为分析系统中聚焦爬虫的设计与实现Keywords: 用户行为分析,聚焦爬虫,多线程,正则表达式 Abstract: 在移动互联网用户行为分析系统中,为了使深度包检测(deeppacketinspection,DPI)进行有效地数据匹配,对用户行为进行更深层次的分析,达到不仅能识别出业务网站类型而且还识别出业务网站访问具体内容的目标,设计出一种能进行具体内容级别上特征爬取和提炼的爬虫模块。针对特定业务网站,考虑广义爬取对技术和存储要求高的缺点以及针对某一行业的爬虫系统得到数据有限的不足,设计并实现了一种基于特定页面分析的聚焦爬虫模块。该爬虫模块采用模块化的思想,使用多线程多任务,精确高效地爬取特定业务网站信息,为DPI匹配提供数据支持。经过测试验证,该爬虫模块达到了预期的要求,可维护性、可扩展性和实时性强,满足移动互联网用户行为分析系统对特征数据提取的需求。
|