|
计算机科学 2012
数据清洗及其一般性系统框架Keywords: 数据质量,数据清洗,相似重复记录,不完整记录,框架 Abstract: 数据清洗是提高数据质量的重要手段之一。从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修。对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念。提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证j部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松藕合的框架。
|