|
- 2018
结合深度学习与词性标注的网页分类算法研究DOI: 10.3969/ j. issn.1673-629X.2018.08.015 Keywords: 网页分类, 深度学习, HTML 标签权重, 词性标注, 深度信念网络 Abstract: 为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用 kNN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。 不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。 通过考虑网页 HTML 标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。 实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的 F 1 值又提升了 3.35%
|