Bootstrap

SCI Q1金融顶刊复现:机器学习小微企业信用风险评估模型

作者Toby,来源公众号:Python风控模型,SCI Q1金融顶刊复现:机器学习小微企业信用风险评估模型

大家好,我是重庆未来之智Toby老师,今天复现与点评SSCI二区金融期刊中的文章《Credit risk assessment of small and micro enterprise based on machine learning》中文翻译为基于机器学习的小微企业信用风险评估模型。文章DOI地址:https://doi.org/10.1016/j.heliyon.2024.e27096。

收录期刊Heliyon

该文章收录于期刊:Heliyon,属于SCIE-Q1,中科院3-4区,letpub综合评分7,挺高的,自引率低于6%,也算正常。预警提示:2024年11月25日查询仍处于SCIE期刊On Hold状态。Heliyon主要收录MULTIDISCIPLINARY SCIENCES文章,即跨学科领域内容,金融风控模型正好属于跨学科领域。如果Heliyon之后能解封,仍然是金融风控模型文章投稿的理想期刊。

图片

图片

图片

图片

图片

图片

论文概述

该论文有12页,Toby老师对此论文进行概述。

引言:

  • 研究背景:小微企业在全球经济和社会发展中扮演着重要角色。随着数字化时代的到来,信用评估方法也在不断进化,其中机器学习技术的应用日益增多。

  • 研究意义:科学管理小微企业的信用风险对于促进其成长至关重要。本研究旨在通过机器学习技术,提高信用风险评估的准确性,为小微企业的稳健发展提供理论和实践工具。

研究内容与方法:

  • 数据来源:研究数据来自第三方信用评估公司,包含财务信息、企业行为数据、公共信用数据和第三方信息,共811个有效样本。

  • 方法论

    • 处理不平衡数据:使用过采样、欠采样和SMOTE算法处理不平衡样本,以确保少数类别样本的平衡表示。

    • 机器学习分类器:采用XGBoost等机器学习算法,识别影响企业信用的关键因素。

    • 评分卡模型:基于关键因素开发XGBoost评分卡模型,提高信用风险评估的准确性。

研究结果:

  • 算法性能:SMOTE算法与XGBoost模型的结合在处理不平衡数据集方面显示出性能优势。

  • 关键因素:研究发现财务信息是信用风险评估的核心,同时非财务信息如企业行为、公共信用和第三方数据也是重要的补充维度。

  • 信用评分模型:XGBoost评分卡模型在信用风险评估中表现出较高的准确性,能够有效地区分信用良好的企业和信用较差的企业。

实践意义:

  • 信用政策制定:研究结果可为政策制定者提供制定信用政策的依据,如为信用良好的企业提供更宽松的金融服务,对信用较差的企业实施信用教育和纪律措施。

  • 金融服务优化:建议根据模型评分结果为不同信用等级的小微企业提供差异化的金融服务,以提高融资效率和金融稳定性。

研究局限与展望:

  • 数据局限性:由于数据可获取性,研究仅包含20个变量,未来研究可以进一步丰富数据维度。

  • 模型创新:未来研究可以考虑结合多种机器学习模型,以更有效地识别关键因素。

  • 数据挖掘:对于信用评分在600至699之间的企业,未来可以进行更深入的数据挖掘,提供定制化的信用修复服务。

结论:

本研究通过机器学习技术,特别是在处理不平衡数据集和信用风险评估方面,为小微企业的信用风险管理提供了新的视角和工具。研究结果不仅在理论上有所贡献,也为实践界提供了有价值的参考。

论文数据集描述

本研究中使用的样本数据集来自第三方信用评估公司。它主要包括财务信息、微观企业行为数据、公共信用数据以及从第三方来源获得的信息。最初,该数据集包含 850 个小微企业的记录。但是,经过详尽的数据清理过程(解决异常值并删除无效条目),我们只剩下包含 811 个条目的精炼企业目录。该数据集包含 20 个变量。“Total_score”是因变量,代表小微企业的信用度。其余 19 个是自变量,提供了对这些企业的基本特征的描述。


Toby老师分析,这20个变量大多数是公司财务数据,20个变量有些偏少,经过变量筛选后,入模变量会更少。如果能保证15-20个变量入模,维度是合适的。数据量方面只有850个,对于金融数据,样本量偏少,我们重庆未来之智公司的企业信贷数据集有几十万条。从统计学角度,850个样本是足够的,这论文数据质量没有问题,收集的变量是核心变量。

图片

图片

论文配图解读

Toby老师认为该论文图片做的挺不错,让编辑对建模过程一目了然。

图片

这张图片展示了一个关于小型和微型企业信用风险评估的研究流程图。流程图分为几个主要部分,具体如下:

  1. 研究内容和方法定义

    • 首先定义研究内容和研究方法。

  2. 主要研究过程(虚线框内):

    • 数据(Data):收集数据。

    • 数据清洗(Data cleaning):对数据进行清洗。

    • 变量描述(Variable description):描述数据中的变量。

    • 相关性分析(Correlation analysis):分析变量之间的相关性。

  3. 方法论(Methodology)

    • 四种模型:XGBoost、决策树(Decision Tree)、随机森林(Random Forest)、支持向量机(SVM)。

    • CART(Classification and Regression Trees)

    • C4.5(决策树算法)

    • 随机森林(RF,Random Forest)

    • 支持向量机(SVM,Support Vector Machine)

    • Adaboost(自适应增强算法)

    • 袋装法(Bagging)

    • XGBoost(极端梯度提升)

    • 过采样(Over-sampling)

    • 欠采样(Under-sampling)

    • 过采样+欠采样(Over + Under sampling)

    • SMOTE(Synthetic Minority Over-sampling Technique)

    • 不平衡样本处理算法(Imbalanced sample processing algorithm)

    • 数据平衡(Balancing data):对数据进行平衡处理。

    • 机器学习分类器(Machine learning classifiers)

    • 挖掘重要节点(Mining important nodes):识别数据中的关键节点。

    • 评分模型(Scorecard model):构建评分模型。

  4. 信用评级(Credit rating):对企业进行信用评级。

  5. 结论和建议(Conclusions and recommendations):基于研究结果提出结论和建议。

整个流程图展示了从数据收集到最终信用评级的完整研究过程,以及在研究过程中使用的各种方法和工具。


文章利用 XGBoost 分类器,作者根据变量的重要性来识别变量并对其进行排名,如图 1 所示。4。前八个变量的显着性明显超过随后的变量。因此,本研究主要针对这八个变量进行进一步分析:上年总资产(GM01)、上年资产回报率(ROA)(ZX02)、合规绩效(HG01)、经营年限(ZX05)、上年营业收入(GM04)、上年利润总额(GM03)、社保缴纳人数/员工人数(GX01)、法定代表的年龄(GL04)

图片

论文多算法比较评价

我们选择前八个变量作为预测变量,而小微企业的信用度作为响应变量。对于我们的预测建模,我们采用了四种著名的机器学习算法,这些算法因其在信用评估方面的熟练程度而闻名:XGBoost、决策树、随机森林和支持向量机 [47]。每个算法都使用贝叶斯优化进行微调,处理相同的特征子集。随机选择的 75% 原始数据集被指定用于训练模型,并应用 SMOTE 技术来解决数据不平衡问题。剩下的 25% 作为测试集,评估这些模型的性能。

作者为了全面评估模型的预测能力,重点关注三个关键性能指标:准确度、F1 分数和 AUC,这是非常不错做法。如下图,xgboost属于最优算法,也是作者推荐算法。

下述四个算法AUC,accuracy,f1分数都很高,难免让人可疑。根据Toby老师多年经验,存在这三个指标接近1的情况可能是:

1.模型过度拟合:特别是非平衡数据处理不当时候可能导致

2.数据泄露:存在可疑变量,造成数据泄露,模型AUC接近1

3.数据质量非常好:Toby老师也见过少数真实数据集,这三值个接近1,这些数据一般是从商业数据库整合而来。

图片

模型分数阈值评价

文章作者自称构建了基于XGBoost模型的信用评分卡。通过分析卡片创建数据中的分数分布,我们确定了分数谱上的阈值。考虑批准率和不良样本的总体百分比等因素,仔细调整该阈值以匹配业务需求。验证数据集的结果如图 1 所示。5,表明将分数阈值设置为 650 分可以有效分离大多数样本。这实现了 98% 的出色批准率,同时保持了较低的错误分类率,这表明整体性能出色。

图片

Toby老师点评一下,真正意义上信用评分卡是逻辑回归模型通过calibration技术转化而成,中间有复杂数据处理过程,包括变量分箱(卡方,kmean,决策树算法),WOE转换,预设p0,pd0等参数。XGBoost模型的信用评分卡这种叫法并不准确,xgboost是通过对原始数据建模,并没有通过分箱和WOE转换处理,但calibration技术可以实现。因此Toby老师认为作者描述XGBoost模型的信用评分卡会给读者带来认知误区,认为xgboost也能构建和逻辑回归一样评分卡模型。

作者设置 650 分可以有效分离大多数样本,说明作者在金融风控领域业务方可能有丰富工作经验或较深认知能力,Toby老师对其表示赞赏。设置分数阈值是业务方常用方法。

论文非平衡数据处理评价

该学生抽样
从论文的非平衡数据处理来看,做了大量实验,包括过采样,欠采样,SMOTE技术。

图片


关于非平衡数据处理技术很多,还有大量实验和优化点。具体可参考Toby老师之前文章

非平衡数据处理-SMOTE Tomek算法

非平衡数据处理-Tomek link算法

Python非平衡数据处理_SMOTE-ENN 方法

非平衡数据处理ADASYN-基于自适应性的过采样方法

非平衡数据处理SMOTE的改良算法-borderline SMOTE, ADASYN

imbalanced data机器学习非平衡数据处理

图片

图片

Toby老师论文复现

我方重庆未来之智信息技术咨询服务有限公司有十几个企业信用风险数据集,下面展示一个经典企业信用风险的数据集,2023年数字中国创新大赛-金融大数据应用:企业信贷风险防控。

图片

图片

变量如下

客户编号    target    是否贷款    法人性别    法人是否有车    法人变更次数    法人成为我行客户时间    法人出生日期    法人年龄    贷款申请期限(月)    结清时长    是否提前结清    贷款金额    贷款支出情况    法人持有房产类型    法人教育程度    法人婚姻情况    所属行业类型    近7日流水总额    企业员工数    企业成立时间    企业成立时间    近一个月流水总额    近7日交易笔数    近三年行政处罚次数    违法违规标志    上游主要企业个数    近一个月日均交易笔数    企业法人存款    企业账户存款(非贷款余额)    账户类型    客户来源    预计未来三月存款金额    预计未来一年贷款金额    客户评级    工商注册时间    最近一次法人变更时长    工商年检日期    企业经营状态    征信评级    代发工资客户标志    法人失信被执行人标志    是否正常缴交五险一金    公积金单位缴存比例    公积金个人缴存比例    单位公积金缴存人数    单位公积金封存人数

图片

数据可视化和探索性分析,我们可以发现target目标变量存在明显的非平衡数据情况,违约企业只占少数。之后我们会复现论文中SMOTE算法处理不平衡样本。

图片

Toby老师通过热力图对部分重要变量相关性分析,可以看到大量变量呈现高相关性。

图片

通过数据挖掘,我们发现数据集有多个强变量,例如预计未来一年贷款金额,征信评级,近一个月流水总额,客户评级,结清时长,是否提前结清。
 

图片

Toby老师企业信用风险预测模型AUC为0.98,

图片

Toby老师通过SMOTE算法适度增加逾期客户数量。

SMOTE(Synthetic Minority Over-sampling Technique)是一种流行的处理不平衡数据集的方法。它通过生成合成的少数类样本来平衡数据集,而不是简单地复制现有的少数类样本。以下是SMOTE算法的基本原理和步骤:

  1. 识别少数类样本:SMOTE算法首先识别数据集中属于少数类别的样本。

  2. 识别K近邻:对于每个少数类样本,SMOTE识别其在特征空间中的K个最近邻。通常使用欧几里得距离来测量数据点之间的相似性。

  3. 合成样本生成:一旦识别出K近邻,SMOTE会选择一个随机邻居,并计算少数样本的特征向量与所选邻居之间的差异。然后将这个差异乘以0到1之间的随机数,并将其添加到少数样本的特征向量中,从而创建新的合成样本。这些合成样本位于少数样本与所选邻居之间的线段上。

  4. 重复过程:重复上述过程,直到达到所需的类别平衡水平。

SMOTE算法的优势在于,它不仅可以简单地复制少数类样本,还可以生成新的样本,从而增加数据集中少数类的多样性。这有助于提高分类模型对少数类的识别和分类能力。然而,SMOTE也有其局限性,包括可能产生噪声数据、可能导致过拟合,以及对少数类样本分布的敏感性。

图片

SMOTE原理:如果少数类中的点是偏远的并出现在多数类中,则会通过与多数类创建新的数据而给真实分类带来问题。

图片

Toby老师通过SMOTE提升了模型性能,但提升空间很有限,而且参数设置比例不能太大,否则模型容易过拟合。

汇总


《Credit risk assessment of small and micro enterprise based on machine learning》是一篇非常不错文章,值得大家去学习,文章结构图非常清晰,运用多算法比较和SMOTE非平衡数据处理。文章里涉及部分细节值得实验再验证,很多更新的创新点也可以加入文章。

论文建模定制服务

《SCIQ1金融顶刊复现:机器学习小微企业信用风险评估模型》就为大家介绍到这里。重庆未来之智信息技术咨询服务有限公司专业从事AI机器学习建模,为国内外多家金融公司建立模型。公司客户包括国内诸多金融机构,银行,证券公司,科研所。

同时我们也为科研高端人群提供论文定制服务,包括毕业论文和学术论文。

论文定制服务项目提供发票,合同,流程全齐。

如果你有论文定制服务需求,请商务联系。

;