%0 Journal Article %T 一种基于图模型的web数据库采样方法 %A 刘伟? %A 孟小峰? %A 凌妍妍? %J 软件学报 %P 179-193 %D 2008 %X web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个web数据库内容的特征,比如主题的分布、更新的频率等,这就为deepweb数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的web数据库采样方法,可以通过查询接口从web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的web数据库采样方法.在本地的模拟实验和真实web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本. %K deep %K web %K web数据库 %K 数据库采样 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=20080202&flag=1