OALib Journal期刊
ISSN: 2333-9721
费用：99美元

投递稿件

查看量	下载量

相关文章
更多...

计算机应用 2016

基于主成分分析和K近邻的文件类型识别算法

DOI: 10.11772/j.issn.1001-9081.2016.11.3161

吴刚,秦琳琳

Keywords: 文件类型识别,字节频率分布,主成分分析,K近邻

Full-Text Cite this paper Add to My Lib

Abstract:

摘要为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题，在基于文件内容识别文件类型的算法基础上，提出主成分分析（PCA）和K近邻（KNN）算法相结合的文件类型识别算法。首先，使用PCA方法对样本预处理以降低样本空间的维数；然后，对降维后的训练样本集进行聚类处理，即用聚类质心代表每种类型的文件；最后，针对训练样本分布不均匀可能造成的分类误差，提出基于距离加权的KNN算法。实验结果表明，改进算法在样本数较多的情况下，能降低分类的计算复杂度，并保持了较高的识别正确率；而且该算法不依赖文件类型的特征标识，应用范围更为广泛

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133