%0 Journal Article %T 基于流信息距离的多文本流热点挖掘 %A 杨宁? %A 唐常杰? %A 王悦? %A 陈瑜? %A 郑皎凌? %A 李红军? %J 软件学报 %P 1761-1770 %D 2011 %R 10.3724/SP.J.1001.2011.03893 %X 把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件kolmogorov复杂度提出了一个相似性度量指标——流信息距离(streaminformationdistance,简称sid),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性. %K 热点挖掘 %K 多文本流 %K 流信息距离 %K 冗余信息 %K kolmogorov %K 复杂度 %U http://www.jos.org.cn/ch/reader/view_abstract.aspx?file_no=3893&flag=1