全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...
软件学报  2011 

基于流信息距离的多文本流热点挖掘

DOI: 10.3724/SP.J.1001.2011.03893, PP. 1761-1770

Keywords: 热点挖掘,多文本流,流信息距离,冗余信息,kolmogorov,复杂度

Full-Text   Cite this paper   Add to My Lib

Abstract:

把文本流中的热点区分为局部热点和全局热点,分析了二者的相关性,并将kolmogorov复杂度应用于多文本流中的热点挖掘.首先,定义了基于kolmogorov复杂度的冗余信息的概念,并论证了文本流存在局部热点的必要条件是冗余信息超过某个阈值;其次,基于条件kolmogorov复杂度提出了一个相似性度量指标——流信息距离(streaminformationdistance,简称sid),以衡量不同文本流之间的相似度;并借鉴计算生物学领域中的种系发生树的思想,提出了一种基于层次聚类的多文本流全局热点挖掘启发式算法.在合成和真实数据集的实验,验证了算法的收敛性、有效性和规模可伸缩性.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133