Bootstrap

信用卡评分卡模型学习笔记

信用卡评分卡模型

原理:将连续变量WOE编码(分箱)后跑逻辑回归

WOE(weight of Evidence)
w o e i = l n ( P y 1 P y 0 ) = l n ( B i / B T G i / G T ) woe_i=ln(\frac{P_{y_1}}{P_{y_0}}) =ln(\frac{B_i/B_T}{G_i/G_T}) woei=ln(Py0Py1)=ln(Gi/GTBi/BT)
P y 1 为 当 前 划 分 特 征 段 下 正 样 本 占 总 正 样 本 的 比 例 P y 0 为 当 前 划 分 特 征 段 下 负 样 本 占 总 负 样 本 的 比 例 B i , B T 为 当 前 划 分 特 征 段 正 样 本 数 及 负 样 本 数 G i , G T 为 总 数 据 中 正 样 本 数 及 负 样 本 数 P_{y_1}为当前划分特征段下正样本占总正样本的比例 \\ P_{y_0}为当前划分特征段下负样本占总负样本的比例\\ B_i,B_T为当前划分特征段正样本数及负样本数\\ G_i,G_T为总数据中正样本数及负样本数 Py1Py0Bi,BTGi,GT
WOE值表示当前特征下违约用户的比例,反映了特征对违约的影响,WOE值越大,具有此特征的用户越有可能违约。

IV(information value)
I V i = ( B i B T − G i G T ) ∗ l n ( B i / B T G i / G T ) = ( B i B T − G i G T ) ∗ w o e i I V = ∑ k = 0 n I V i IV_i= (\frac{B_i}{B_T}-\frac{G_i}{G_T})*ln(\frac{B_i/B_T}{G_i/G_T}) = (\frac{B_i}{B_T}-\frac{G_i}{G_T})*woe_i \\ IV =\sum_{k=0}^nIV_i IVi=(BTBiGTGi)ln(Gi/GTBi/BT)=(BTBiGTGi)woeiIV=k=0nIVi
IV衡量一个特征在某个分划下的总信息量,和信息熵相似.
每个变量的分箱结构应保证该分箱下,IV取极大值。
IV值衡量指标

IV预测能力
<0.03无预测能力
0.03~0.09
0.1~0.29
0.3~0.49
>0.5极高
;