全部 标题 作者 关键词 摘要
Keywords: 主题网络爬虫,锚文本,决策树
Full-Text Cite this paper Add to My Lib
?提出了一种基于锚文本和改进c4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行url的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主题爬行实验,并与两种标准的网络爬虫进行了性能对比,实验结果验证了该方法的有效性。
Full-Text
Contact Us
service@oalib.com
QQ:3279437679
WhatsApp +8615387084133