|
计算机科学 2014
基于事实抽取的web文档内容数据质量评估DOI: 10.11896/j.issn.1002-137X.2014.11.047 Keywords: 数据质量,web文档,准确性,完整性,质量维度,事实 Abstract: web文档内容数据质量评估决定获取数据的有用性。基于词法或用户交互进行质量评估的方法缺乏通用性,也不能获取内容的事实内涵。因此提出基于事实的质量评估方法(fact-basedqualityassessment,fqa)。首先在web上构建目标文档上下文,并抽取web文档内容的事实;然后分别采用投票和图迭代策略,构建准确性和完整性维度的参照;最后,比对目标文档和维度参照的事实,量化准确性和完整性。该方法不依赖特定特征,基于事实内涵量化数据质量维度,可取得高的评估精度。实验结果证明了fqa方法的优越性。
|