%0 Journal Article %T Web语料抓取中基于相似度的URL过滤规则生成算法* %A 陈荟慧 %A 舒云星 %A 林丽 %J 模式识别与人工智能 %P 631-637 %D 2014 %X Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. %K URL相似度 %K Web语料爬取 %K URL过滤 %K 语料分类 %U http://manu12.magtech.com.cn/Jweb_prai/CN/abstract/abstract9890.shtml