|
软件学报 2008
一种基于图模型的web数据库采样方法, PP. 179-193 Keywords: deep,web,web数据库,数据库采样 Abstract: web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个web数据库内容的特征,比如主题的分布、更新的频率等,这就为deepweb数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的web数据库采样方法,可以通过查询接口从web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的web数据库采样方法.在本地的模拟实验和真实web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.
|