|
中山大学学报(自然科学版) 2016
面向Web数据集成的真值发现算法Abstract: 摘要 在Web数据集成中,常出现多个数据源对同一实体对象的描述存在冲突.解决冲突,发现真值有助于提高数据集成质量或构建高质量的知识库等.已有的解决单真值数据冲突的方法存在数据源评价指标不充分,无法区分数据源的数据缺失和假真,以及无法处理数据源间传递复制、共同复制等高阶复制的局限性.因此,本文采用召回率和假真率度量数据源质量,提出能处理数据源间复杂数据复制的真值发现算法.三个真实数据集和人工数据集上的实验结果表明,本文算法能有效降低错误数据复制带来的真值计算偏差,提高真值发现的准确率
|