Bootstrap

实验结果啊

所提出的框架已应用于智利一家银行的两个信用评分数据集。本节的组织结构如下:第4.1节对实施的项目进行了说明。实验设置如所示第4.2节,包括用于基准测试的替代方法的说明。随后,第4.3节总结了主要结果,包括从这些实验中获得的主要管理见解。

本研究中使用的两个数据集由发放给智利新申请人和回国申请人的贷款组成,他们都是微型企业家。他们可以获得的信息包括贷款特征、借款人、他们在银行的财务历史(仅适用于回头客)以及他们所代表的小型或微型公司的信息。违约者被定义为在贷款的第一年内拖欠一期或多期贷款超过90天的借款人,这是巴塞尔协议II/III的标准定义[4]。
以下策略用于在建模过程之前丢弃不相关的协变量。首先,删除缺失值超过30%或高度集中在单个值(99%浓度)的变量。随后,通过应用两个样本独立性检验来研究相关性,将每个属性与目标变量联系起来。
Kolmogorov–Smirnov(KS)和χ2分别用于数值变量和名义变量,考虑到α=5%的显著性水平,丢弃那些在统计学上不相关的变量。关于缺失值输入,我们用数值(标称)变量的平均值(模式)代替缺失信息。
新客户(NC)和退货客户(RC)数据集中分别有1510笔和5799笔贷款,分别由94个和46个变量描述。NC和RC数据集的默认值分别为629和872。我们为被纳入信用评估组的回头客构建了几个指标,总结了他们过去的贷款历史,甚至为新客户提供了更多信息。原因有两个。一方面,在数据收集过程的每个阶段,都会为新客户收集更多的信息,因为金融机构知道这一细分市场比回头客的风险更大。另一方面,目前针对回头客的发放政策主要关注申请人过去的贷款历史,而用于为新客户建立记分卡的一些信息并没有为回头客再次收集。因此,由于预处理步骤中缺少值,从返回客户的数据集中删除了几个变量。
新客户(NC)和退货客户(RC)数据集中分别有1510笔和5799笔贷款,分别由94个和46个变量描述。NC和RC数据集的默认值分别为629和872。我们为被纳入信用评估组的回头客构建了几个指标,总结了他们过去的贷款历史,甚至为新客户提供了更多信息。原因有两个。一方面,在数据收集过程的每个阶段,都会为新客户收集更多的信息,因为金融机构知道这一细分市场比回头客的风险更大。另一方面,目前针对回头客的发放政策主要关注申请人过去的贷款历史,而用于为新客户建立记分卡的一些信息并没有为回头客再次收集。因此,由于预处理步骤中缺少值,从返回客户的数据集中删除了几个变量。
根据信息来源确定了五组不同的变量。信用评估是借款人与银行之间的第一次接触。申请人必须填写一份表格才能被录取,这些信息构成了第一个来源。然后,银行在访问借款人的工作场所时进行深入采访,以收集其公司的财务数据。一旦进行了这次采访,分析师就会利用采访中收集的信息创建财务比率来估计公司的现金流。此外,银行购买与借款人在金融系统中的长期债务相关的变量。最后,财务分析也可以使用系统级信息进行,从而获得新的数据源。

表1总结了五个数据源,其中列出了变量组的来源(内部-I或外部-E来源)、两个数据集可用的属性数量,以及基于信贷官员或分析师收集信息所需时间及其月薪的每个借款人的估计成本。
在本案例研究中,假设每个来源的可变收购成本对于新客户和回头客来说是相似的。无论借款人的性质如何,每个人都应该经过相同的风险评估过程,高管所做的努力对任何申请人来说都大致相同。由于他们有更多的数据源,使用所有这些数据源意味着回头客可以降低成本。
请注意,我们的方法并没有假设每个来源的可变收购成本对新客户和回头客来说是相似的。我们的模型可以应用于任何可变采购成本的输入。在我们的案例研究中,这是一个有效的假设。
4.2
以下验证策略用于基准测试:在两个数据集上进行了10倍交叉验证。所提出的利润指标包括可变收购成本、准确性和曲线下面积(AUC),作为绩效指标。选择以下机器学习方法作为替代方法:
4.3
表2和表3分别针对NC和RC数据集对所提出的方法和备选方法的最佳配置进行了比较。对于每个数据集,利润方面的最佳性能以粗体突出显示。请注意,所有备选方法都不会执行特征选择。
从表2中可以看出,就AUC而言,2-SVM和所提出的1-PSOCP实现了最佳性能,但除了k-NN和Naïve Bayes明显低于平均值外,大多数方法都实现了相对相似的AUC。如果改为研究平均利润,则只有所提出的方法才能获得正利润,并且2PSOCP以最佳性能领先。造成这些重要差异的原因是,使用所有变量来源的收集成本太高,而分类性能无法弥补这一成本。
可以观察到,当将最佳性能与所有变量(AUC=70.7,2-SVM)和仅与一个源(AUC=69.7,2-PSOCP)进行比较时,就AUC而言,用所有源构建模型的增益约为0.01。显然,额外的变量无法补偿获得它们的努力。
在表3中,我们观察到相对相似的结果,因为就利润而言,这些建议明显优于所有替代方法。在这种情况下,所有三种来源的最佳性能方法与只有一种来源的方法之间的差异为3.1(AUC=67.9,1-SVM和AUC=64.8,1-PSOCP),与新客户相比,这些额外来源的影响更大。与第一个数据集相比,所有方法的平均利润都是正的。
从前面的表格可以得出结论,当使用昂贵的流程来收集信息时,在利润的定义中包括可变购置成本是至关重要的;它可以区分盈利模式和非盈利模式。另一个需要强调的重要方面是,基于AUC或准确性的指导决策可能会产生误导,因为当使用这些指标时,即使是最好的模型也可能导致负平均利润。
接下来,我们通过在组级别对所有方法进行顺序选择来探索不同组的效果。
在这个过程中监测利润和AUC,对于替代方法,包括按照第4.1节中描述的优先顺序,用一到五个NC数据源和一到三个RC数据源训练每个方法。对于我们的建议,我们执行基于组的向后消除,但保持原始权重。这些实验的目的是证明,即使不需要对不同组的模型进行重新训练,我们提出的方法也能获得优异的性能,并且能够自动找到最优数量的变量源。
图1-4显示了小组级绩效分析的结果。只有在利润方面最好的SVM和PSOCP配置才被提出,以便于图形的可视化。图1和图2分别显示了新客户的AUC和利润,而图3和图4显示了返回客户的相同信息。
从之前提供的图中可以看出,在本研究中报道的各种特征子集的预测方法中,所提出的PSOCP实现了最大的利润。在最坏的情况下,PSOCP的行为与性能最好的替代方法(SVM和logit,具有4-5个变量源的NC数据集)相似。就对于AUC,我们的提案对新客户的表现与这些方法类似,对RC客户的表现稍差。
对于后一个数据集,值得注意的是,利润的直接优化可能有利于在每个类召回之间实现所需的平衡;即使可变收购成本相似,大的AUC也不一定能带来最大利润。

;