|
中山大学学报(自然科学版) 2018
互联网软件错误日志聚类Keywords: 聚类,错误日志,文档频率,Canopy算法,Kmeans算法 Abstract: 摘要 互联网内容提供商在实际运营过程中,所维护的各项业务随时可能会遇到各种各样的问题,将相应的大量错误日志经过聚类后及时反馈给相应的研发人员是排除问题的首要因素.为了有效解决海量非规范的错误日志的聚类问题,本文提出互联网软件错误日志聚类方法.该方法通过引入日志模板提取、日志压缩方法降低日志规模;通过引入计算文档频率提取特征词方法提高聚类准确性并降低数据维度;结合Canopy聚类和Kmeans聚类算法提升聚类效果.通过在某互联网公司运维中实际系统的检验,本文提出的方法不但具有比较理想的聚类效果,而且满足生产环境中的性能要求
|