%0 Journal Article %T 利用属性集相关性与源误差的多真值发现方法研究 %A 刘丛 %A 卢菁 %A 胡成 %J 中山大学学报(自然科学版) %D 2019 %X 摘要 目前真值发现的研究主要利用数据源质量和数据之间的关系,然而实际数据的分布呈现长尾现象,传统算法在处理尾部数据时,准确率大大下降.本文对数据源进行分类,对头部数据源利用属性集相关性,给予正确集更多的置信度补偿,易于剔除错误数据;对尾部数据源,根据误差小的数据源应获得更高的权值分配的理论,将真值发现转化成全局优化问题,通过寻求数据源权值的最佳分配,获得最可能接近真值列表的属性集合.实验表明,本文提出的方法在真实的长尾数据集上,准确率和召回率方面均优于传统算法 %K 真值发现 %K 数据冲突 %K 长尾现象 %K 相关性 %K 源误差 %U http://xwxt.sict.ac.cn/CN/abstract/abstract4879.shtml