%0 Journal Article %T 基于heritrix的web信息抽取 %A 陈俊彬 %A 曹树金 %J 图书情报工作 %D 2009 %X ?针对现阶段web信息抽取技术的不足,提出一种基于heritrix的精确抽取方法,由三个分别独立的功能模块共同完成。与一般信息抽取不同,本方法注重于在精确抽取的前提下实现通用化,做到可以根据数据库表的字段来进行最小单位的信息抽取,并且较好地解决信息采集通用性和准确性之间的矛盾。 %K heritrix %K 信息抽取 %K htmlparser %K web数据采集 %U http://124.16.154.130:8080/lis/CN/abstract/abstract9995.shtml