|
基于Light-GBM算法对生物活性的定量预测
|
Abstract:
雌激素受体α亚型(ERα)作为乳腺癌内分泌疗法的重要靶点,拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。本文首先对数据进预处理,包括使用肘部法则和轮廓系数确定K-means聚类K值,再进行聚类处理,并用安德鲁斯曲线可视化。采用方差过滤法和随机森林法对分子描述符进行重要性排序,并对初筛变量进行皮尔逊相关性分析,得到对生物活性影响最显著且独立性较强的20个分子描述符。接着,基于Light-GBM算法建立化合物ERα生物活性的定量预测模型,将数据集按照4:1的比例划分为训练集和测试集。测试集的MSE为0.468、RMSE为0.684、MAE为0.499、R-square为0.788。本文的模型具有较高的预测精度,能加快新药的研发速度,有助于研究乳腺癌的发生和发展机制。
As an essential target for endocrine therapy of breast cancer, estrogen receptor (ERα) subtypes may be candidates for drug discovery against breast cancer if the compounds can antagonize ER activity. This study initially preprocesses the data, including determining the K value of K-means clustering using the elbow method and silhouette coefficient, conducting clustering, and visualizing the results with Andrews curves. Then, variance filtering and random forest methods are used to rank the molecular descriptors in terms of importance. Pearson correlation analysis is further applied to the initially screened variables, resulting in 20 molecular descriptors that have the most significant and independent impacts on biological activity. Subsequently, a quantitative prediction model for ER bioactivity of compounds is built based on the Light-GBM algorithm. The dataset is divided into a training set and a test set at a ratio of 4:1. The model performance on the test set shows an MSE of 0.468, RMSE of 0.684, MAE of 0.499, and R-square of 0.788. This model exhibits high prediction accuracy, which can accelerate the development of new drugs and contribute to the research on the occurrence and development mechanisms of breast cancer.
[1] | 联合国. 世界癌症日: 乳腺癌已超过肺癌成为全球主要新发癌症类型[EB/OL]. https://news.un.org/zh/story/2021/02/1077332, 2024-01-13. |
[2] | 宁文涛, 胡志烨, 董春娥, 等. 抗乳腺癌双靶点药物研究进展[J]. 中国药物化学杂志, 2020, 30(12): 778-788. |
[3] | 王斯. 高维数据下基于稀疏神经网络的抗乳腺癌候选药物筛选、预测与优化[D]: [硕士学位论文]. 重庆: 重庆工商大学, 2024. |
[4] | 秦璞, 郭志旺, 郭维恒, 等. 应用随机森林和支持向量机对三阴性乳腺癌基因数据的降维和筛选[J]. 中国卫生统计, 2020, 37(3): 389-394. |
[5] | 王江翔, 肖清泉. 基于粒子群算法优化的乳腺癌化合物活性预测研究[J]. 智能计算机与应用, 2023, 13(7): 45-52. |
[6] | 魏静, 李婷英, 张莹, 等. 羧甲基β-葡聚糖联合阿霉素抗乳腺癌以及减轻心脏毒性的实验研究[J]. 中国临床药理学杂志, 2021, 37(3): 275-279. |
[7] | 徐爱兰, 朱晏民, 孙强, 於香湘, 彭小燕. 基于K-means划分区域的深度学习空气质量预报[J]. 南通大学学报(自然科学版), 2021, 20(3): 49-56. |
[8] | 林磊, 孙建孟. 基于K-均值聚类与肘部法则的测井相建立方法研究[C]//中国地球物理学会, 中国地震学会, 等. 2020年中国地球科学联合学术年会论文集. 青岛: 中国石油大学(华东), 2020. |
[9] | Sujay, A. and Siva, R.V. (2021) Multimodal Sentiment Analysis Using Relief Feature Selection and Random Forest Classifier. International Journal of Computers and Applications, 43, 1-9. |
[10] | 汪家清, 韦哲, 张太鹏, 等. 基于随机森林算法的乳腺癌预测模型的研究[J]. 中国医学装备, 2022, 19(1): 119-123. |
[11] | 孟祥福, 田友发, 张霄雁. 基于LightGBM模型的肺腺癌免疫相关基因筛选与患者生存率预测[J]. 生物医学工程学杂志, 2024, 41(1): 70-79. |
[12] | 吴晖南, 陈淑娇, 陈展峰, 等. 基于LightGBM模型的糖尿病预测模型的研究[J]. 中国卫生标准管理, 2023, 14(24): 64-67. |
[13] | 林瑜, 吴静依, 蔺轲, 等. 基于集成学习模型预测重症患者再入重症监护病房的风险[J]. 北京大学学报(医学版), 2021, 53(3): 566-572. |
[14] | 郑惠文. 机器学习算法在内科疾病诊断中的应用[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2021. |