全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

一种自适应信息集成方法

Keywords: 相似重复记录,混合相似度,自适应信息集成,字符串匹配

Full-Text   Cite this paper   Add to My Lib

Abstract:

?检测相似重复记录是信息集成中的关键任务之一,尽管已经提出了各种检测相似重复记录的方法,但字符串匹配算法是这些检测方法中的核心。在提出的自适应信息集成算法中,用一个综合了编辑距离和标记距离的混合相似度去度量字符串之间的相似度。为了避免由于表达方式的差异而造成的字符串之间的不匹配,字符串被分割成独立的单词后按单词的第一个字符进行排序。在单词的匹配中,对拼写错误和缩写有一定的容错功能。实验结果表明,自适应信息集成方法比用smithwaterman和jaro距离有更高的正确率。

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133