%0 Journal Article %T 基于动态区间映射的文档聚类算法 %A 孙永林 %A 刘仲? %J 计算机科学 %D 2010 %X 随着信息数字化的快速发展,新兴的归档存储成为研究热点,空间利用率和扩展性是其关键问题。利用基于内容分块存储实现重复数据删除,是提高存储空间利用率的有效途径,但由于归档数据规模巨大,在所有数据中寻找共享分块的做法十分低效。将动态区间映射思想引入信息聚类,提出了基于动态区间映射的文档聚类算法dc-dim;利用分块和特征提取方法产生文档的分块特征集合,将分块特征集合映射在区间链上,依据文档分块特征集合的映射分布确定文档的存储容器,实现文档聚类;将内容相似度高(共享内容多)的文档聚集在一起,为分块存储和方便数据管理创造有利条件。 %K 文档聚类 %K 归档存储 %K 动态区间映射 %K 空间利用率 %K 扩展性 %U http://www.jsjkx.com/jsjkx/ch/reader/view_abstract.aspx?file_no=100605&flag=1