%0 Journal Article %T 基于半监督聚类的文档敏感信息推导方法 %A 苏赢彬? %A 杜学绘? %A 夏春涛? %A 曹利峰? %A 陈华成? %J 计算机科学 %D 2015 %X 针对当前多文档聚合推导引起的敏感信息泄露问题存在风险大、隐蔽性高的特点,提出了一种基于半监督聚类的文档敏感信息推导方法。首先,为确保在较小的时间开销下获得高质量的约束信息,设计了一种新颖的二阶约束主动学习算法,它通过选择不确定性最大的样本点来生成信息量最大的约束闭包;然后,在引入约束信息的基础上结合dbscan提出一种新的半监督聚类算法,它能够有效解决dbscan算法存在的边界模糊问题,提高文档聚类准确性;最后,在半监督聚类结果的基础上,对相似文档进行敏感信息可能性测度。实验表明,半监督聚类算法准确率提升明显,推导方法能够有效推导出敏感信息。 %K 半监督聚类 %K dbscan %K 主动学习 %K 敏感信息 %K 模糊数学 %K 推导方法 %U http://www.jsjkx.com/jsjkx/ch/reader/view_abstract.aspx?file_no=20151028&flag=1