全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
电子学报  2010 

一种面向DeepWeb数据源的重复记录识别模型

, PP. 275-281

Keywords: 重复记录,深层web,数据清洗

Full-Text   Cite this paper   Add to My Lib

Abstract:

重复记录是指描述现实世界中同一实体的不同的记录信息。由于从同一个领域的不同DeepWeb数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究。在已知全局模式和全局模式与各DeepWeb数据源查询接口映射关系的基础上,提出了一种重复记录识别模型。基于从DeepWeb中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录。实验表明,该重复记录识别模型在DeepWeb环境下是可行且有效的。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133