|
E-Commerce Letters 2024
基于机器学习的信贷风险量化研究
|
Abstract:
随着互联网金融的发展,对于商业银行来说网络信贷业务变得越来越重要,而随之而来的信贷风险控制也日益凸显其重要性。本文通过对机器学习相关知识的研究和学习,在对金融机构的信贷数据进行相应的预处理以及数据集拆分之后,构建了基于逻辑回归、SVM、随机森林等方法的多个风险量化决策模型。在进行特征指标的选取、模型参数等细节的研究和设置之后,基于训练集数据来构建风险量化决策模型并对信贷客户的违约行为进行判断,然后将测试集数据代入模型中并把预测值与客户实际还款情况进行对比来验证模型的有效性。通过本文的研究和实验结果表明,通过构建风险量化决策模型来预测信贷客户的还款情况,特别是优化后的随机森林模型和SGD Classifier模型拥有较好的预测效果,具有较高的可行性和准确率。在客户申请贷款业务时,只需要输入对应的特征信息到预测模型中,就能立即对客户的违约情况进行预测。这对信贷风险的控制起着较大的促进作用,也对我国金融信贷市场的稳健发展有着积极的意义。
With the development of internet finance, online credit business has become increasingly important for commercial banks, and the accompanying risk control of online credit has also become increasingly important. Through the research and learning of machine learning related knowledge, after the corresponding pre-processing of credit data of financial institutions and the splitting of data sets, this paper constructs multiple risk quantitative decision-making models based on logical regression, SVM, random forest and so on. After studying and setting the selection of feature indicators, model parameters, and other details, a risk quantification decision model is constructed based on the training set data to judge the default behavior of credit customers. Then, the test set data is substituted into the model and the predicted values are compared with the actual repayment situation of customers to verify the effectiveness of the model. The research and experimental results of this paper show that the optimized random forest model and SGD Classifier model have good prediction effect, high feasibility and accuracy by building a risk quantitative decision-making model to predict the repayment of credit customers. When a customer applies for loan business, they only need to input the corresponding feature information into the prediction model to immediately predict the customer’s default situation. This plays a significant role in promoting the control of credit risks and has a positive significance for the stable development of China’s financial credit market.
[1] | 李健, 张金林. 供应链金融的信用风险识别及预警模型研究[J]. 经济管理, 2019, 41(8): 178-196. |
[2] | Nalić, J. and Martinovic, G. (2020) Building a Credit Scoring Model Based on Data Mining Approaches. International Journal of Software Engineering and Knowledge Engineering, 30, 147-169. https://doi.org/10.1142/s0218194020500072 |
[3] | 申晴, 张连增. 一种新的银行信用风险识别方法: SVM-KNN组合模型[J]. 金融监管研究, 2020(7): 23-37. |
[4] | 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用[J]. 数据分析与知识发现, 2021, 5(10): 28-36. |
[5] | 李佩霏. 基于支持向量机和GARCH模型的股价预测[D]: [硕士学位论文]. 大连: 大连理工大学, 2021. |
[6] | 向实, 曾银球, 闫新国, 等. 基于支持向量机方法的债券违约风险监测预警研究[J]. 金融经济, 2022(1): 40-50. |
[7] | 蔡毅, 唐振鹏, 吴俊传, 等. 基于灰狼优化的混频支持向量机在股指预测与投资决策中的应用研究[J]. 中国管理科学, 2024, 32(5): 73-80. |
[8] | 李昕, 谢昊伦. 基于支持向量机的农业中小企业供应链金融信用风险评价[J]. 物流科技, 2024, 47(5): 146-149. |
[9] | 胡蝶. 基于随机森林的债券违约分析[J]. 当代经济, 2018(3): 28-30. |
[10] | 陈标金, 王锋. 宏观经济指标、技术指标与国债期货价格预测——基于随机森林机器学习的实证检验[J]. 统计与信息论坛, 2019, 34(6): 29-35. |
[11] | 方若男, 骆品亮. 基于随机森林的第三方支付违规风险预警研究[J]. 技术经济, 2020, 39(9): 11-21. |
[12] | 周亮. 基于随机森林模型的股票多因子投资研究[J]. 金融理论与实践, 2021(7): 97-103. |
[13] | 闫政旭, 秦超, 宋刚. 基于Pearson特征选择的随机森林模型股票价格预测[J]. 计算机工程与应用, 2021, 57(15): 286-296. |
[14] | 孙玲莉, 杨贵军, 王禹童. 基于Benford律的随机森林模型及其在财务风险预警的应用[J]. 数量经济技术经济研究, 2021, 38(9): 159-177. |
[15] | 杨睿哲, 王智敏. 客户信息不完全下的授信评估问题——基于逻辑回归、神经网络等模型[J]. 现代商业, 2019(36): 91-92. |
[16] | 郝婷婷, 俞俊杰, 陈燕. 基于逻辑回归的商业银行客户信用评级研究[J]. 科技资讯, 2019, 17(3): 255-256. |
[17] | 边玉宁, 陆利坤, 李业丽, 曾庆涛, 孙彦雄. 基于逻辑回归的金融风投评分卡模型实现[J]. 计算机科学, 2020, 47(S2): 116-118. |
[18] | 刘荣珍. 基于逻辑回归和机器学习的个人信用风险研究[D]: [硕士学位论文]. 兰州: 兰州大学, 2021. |
[19] | 曹杰, 张岩松, 刘速, 等. 基于逻辑回归评分卡的石油企业供应商风险模型研究[J]. 油气与新能源, 2021, 33(5): 51-57. |
[20] | 张媛媛. 基于特征工程和均值不确定逻辑回归在广告和银行领域欺诈识别[D]: [硕士学位论文]. 济南: 山东大学, 2023. |