|
基于太赫兹时域光谱数据的柴胡鉴别多分类器比较
|
Abstract:
随着机器学习领域的发展,研究人员不断探索新的分类算法模型,使得可供选择的机器学习算法种类更加丰富。然而,许多研究仅使用有限的分类算法,这导致综合比较分类器性能变得困难。为此,本实验利用柴胡太赫兹(THz)时域光谱数据,使用多个评价指标,评估了支持向量机(SVM)、KNN、决策树(Decision Tree, DT)、随机森林(Random Forest, RF)、Logistic回归(LR)、多层感知(MLP)、伯努利朴素贝叶斯(Bernoulli Naive Bayes, BNB)、AdaBoosting、梯度提升决策树(Gradient Boosting Decision Tree, GBDT)、极端随机树(Extremely Random Forest, ERF)、极致梯度提升(eXtreme Gra-dient Boosting, XGB)和轻量梯度提升机(Light Gradient Boosting Machine, LGBM)等12种分类器的分类性能。结果表明,LR、MLP、SVM和KNN分类效果最好,其中,MLP的批次内投票准确率达100%,且召回率和F2得分都较为优异;此外,GBDT、AdaBoosting和LGBM等算法的柴胡鉴别准确度也普遍超过80%。本文为基于THz的柴胡鉴中的分类器选择提供了重要参考。
With the development of machine learning, researchers are constantly exploring new classification algorithm models, making the variety of machine learning algorithms available more diverse. However, many studies only use limited classification algorithms, which makes it difficult to comprehensively compare the performance of classifiers. For this purpose, this paper used terahertz (THz) time-domain spectral data of Bupleurum to evaluate the performance of 12 classifiers including Support vector machine (SVM), KNN, Decision Tree (DT), Random Forest (RF), Logistic Regression (LR), Multilayer Perceptron (MLP), Bernoulli Naive Bayes (BNB), AdaBoosting, Gradient Boosting Decision Tree (GBDT), Extremely Random Forest (ERF), eXtreme Gradient Boosting (XGB) and Light Gradient Boosting Machine (LGBM), in terms of multiple classification performance indicators. The results showed that LR, MLP, SVM, and KNN are the four classifiers with the best classifi-cation performance. Among them, the MLP classifier reaches 100% accuracy after voting and has superior recall and F2 score; in addition, newer algorithms such as GBDT, AdaBoosting and LGBM have also been generally found to have accuracies of more than 80%. This paper provides an im-portant reference for practical applications in the field of Chai Hu identification based on THz.
[1] | 杨惠智, 杨婷, 孙万阳, 郭萍, 孙国祥, 李茜, 李晓辉. 中药一致性评价新技术——中药太赫兹光谱发展及其量子指纹图谱在中药一致性评价中的应用[J]. 中南药学, 2022, 20(7): 1478-1486. |
[2] | 盘书宝. 基于太赫兹光谱的中草药快速识别及含量检测方法研究[D]: [博士学位论文]. 桂林: 桂林电子科技大学, 2022. |
[3] | 章龙. 基于太赫兹光谱技术与化学计量学方法的中药识别研究[D]: [硕士学位论文]. 南京: 南京林业大学, 2020. |
[4] | 陈艳江, 刘艳艳, 赵国忠, 等. 基于支持向量机的中药太赫兹光谱鉴别[J]. 光谱学与光谱分析, 2009, 29(9): 2346-2350. |
[5] | 庹帅. 基于太赫兹时域光谱技术的转基因农产品种子识别方法研究[D]: [硕士学位论文]. 武汉: 武汉科技大学, 2022. DOI:10.27380/d.cnki.gwkju.2022.000591 |
[6] | 赵聪. 融合ResNet和LSTM的太赫兹时域光谱数据识别方法[J]. 工业控制计算机, 2022, 35(9): 90-92. |
[7] | 郑志杰, 林振衡, 谢海鹤, 等. 基于卷积神经网络的工程塑料太赫兹光谱分类识别方法[J]. 光谱学与光谱分析, 2023, 43(5): 1387-1393. |
[8] | 杨超宇, 陈雯君, 耿显亚. 基于改进SVM的中文专利文本分类比较研究[J]. 武汉理工大学学报(信息与管理工程版), 2023, 45(2): 292-298+303. |
[9] | 吉黎明, 熊兴旺, 杨子荣. 一种基于逻辑回归的柴油机工况分类模型[J]. 小型内燃机与车辆技术, 2023, 52(2): 6-9+20. |
[10] | 张丽娟, 夏艳, 程雪平, 等. 基于伯努利贝叶斯模型的高校贫困生预测研究[J]. 信息技术与信息化, 2021(11): 159-161. |
[11] | 谢永康, 丁梦清, 徐啸, 等. 基于MLP神经网络算法的中医肥胖体质分类模型研究[J]. 无线互联科技, 2021, 18(7): 37-40. |
[12] | 刘鸿浩, 杨玲玲. 基于GBDT算法的多因子选股策略研究[J]. 产业创新研究, 2023(9): 124-126. |
[13] | 何芸. 基于LGBM模型的城市道路交通流量预测研究[J]. 电子技术与软件工程, 2022(3): 259-262. |
[14] | 甘思雨. 基于XGBoost算法的多因子选股策略研究[D]: [硕士学位论文]. 大连: 东北财经大学, 2022. |
[15] | 刘畅畅. 数据分类算法性能的大规模实验对比分析[D]: [硕士学位论文]. 郑州: 河南大学, 2016. |