%0 Journal Article %T 基于聚类分析的微博广告发布者识别 %A 王业沛 %A 赵志宏 %A 陈松宇 %J 计算机应用 %D 2018 %R 10.11772/j.issn.1001-9081.2017102478 %X 摘要 微博空间存在大量的广告内容,这些信息严重影响着普通用户的用户体验和相关的研究工作。现有研究多使用支持向量机(SVM)或随机森林等分类算法对广告微博进行处理,然而分类方法中人工标注大数据量训练集存在困难,因此提出基于聚类分析的微博广告发布者识别方法:对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别微博广告发布者。实验结果显示,所提方法准确率为92%,召回率为97%,F值为95%,证明所提方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供理论支持和实用方法 %K 微博广告 %K 基于密度的空间聚类 %K 文本过滤 %K 特征提取 %U http://www.joca.cn/CN/abstract/abstract21877.shtml