%0 Journal Article %T 一种面向DeepWeb数据源的重复记录识别模型 %A 申德荣 %A 刘丽楠 %A 寇月 %A 聂铁铮 %A 于戈 %J 电子学报 %P 275-281 %D 2010 %X 重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各DeepWeb数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。基于从DeepWeb中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在DeepWeb环境下是可行且有效的。 %K 重复记录 %K 深层web %K 数据清洗 %U http://www.ejournal.org.cn/CN/abstract/abstract4180.shtml