%0 Journal Article
%T Web语料抓取中基于相似度的URL过滤规则生成算法*
%A 陈荟慧
%A 舒云星
%A 林丽
%J 模式识别与人工智能
%P 631-637
%D 2014
%X Web语料是语料库的重要组成部分，但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率，使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀，为发现目标文件聚集区域，提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化，归并相同元素后划分为子集，再计算子集内URL之间的相似度，并根据相似程度较高的URL构造虚拟目录树，基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法，并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响.
%K URL相似度
%K Web语料爬取
%K URL过滤
%K 语料分类
%U http://manu12.magtech.com.cn/Jweb_prai/CN/abstract/abstract9890.shtml