%0 Journal Article %T 一种基于锚文本和改进c4.5决策树算法的主题爬行方法 %A 刘金红 %A 陆余良 %J 计算机应用 %D 2006 %X ?提出了一种基于锚文本和改进c4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行url的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主题爬行实验,并与两种标准的网络爬虫进行了性能对比,实验结果验证了该方法的有效性。 %K 主题网络爬虫 %K 锚文本 %K 决策树 %U http://www.joca.cn/CN/abstract/abstract8665.shtml