信用卡评分卡模型
原理:将连续变量WOE编码(分箱)后跑逻辑回归
WOE(weight of Evidence)
w
o
e
i
=
l
n
(
P
y
1
P
y
0
)
=
l
n
(
B
i
/
B
T
G
i
/
G
T
)
woe_i=ln(\frac{P_{y_1}}{P_{y_0}}) =ln(\frac{B_i/B_T}{G_i/G_T})
woei=ln(Py0Py1)=ln(Gi/GTBi/BT)
P
y
1
为
当
前
划
分
特
征
段
下
正
样
本
占
总
正
样
本
的
比
例
P
y
0
为
当
前
划
分
特
征
段
下
负
样
本
占
总
负
样
本
的
比
例
B
i
,
B
T
为
当
前
划
分
特
征
段
正
样
本
数
及
负
样
本
数
G
i
,
G
T
为
总
数
据
中
正
样
本
数
及
负
样
本
数
P_{y_1}为当前划分特征段下正样本占总正样本的比例 \\ P_{y_0}为当前划分特征段下负样本占总负样本的比例\\ B_i,B_T为当前划分特征段正样本数及负样本数\\ G_i,G_T为总数据中正样本数及负样本数
Py1为当前划分特征段下正样本占总正样本的比例Py0为当前划分特征段下负样本占总负样本的比例Bi,BT为当前划分特征段正样本数及负样本数Gi,GT为总数据中正样本数及负样本数
WOE值表示当前特征下违约用户的比例,反映了特征对违约的影响,WOE值越大,具有此特征的用户越有可能违约。
IV(information value)
I
V
i
=
(
B
i
B
T
−
G
i
G
T
)
∗
l
n
(
B
i
/
B
T
G
i
/
G
T
)
=
(
B
i
B
T
−
G
i
G
T
)
∗
w
o
e
i
I
V
=
∑
k
=
0
n
I
V
i
IV_i= (\frac{B_i}{B_T}-\frac{G_i}{G_T})*ln(\frac{B_i/B_T}{G_i/G_T}) = (\frac{B_i}{B_T}-\frac{G_i}{G_T})*woe_i \\ IV =\sum_{k=0}^nIV_i
IVi=(BTBi−GTGi)∗ln(Gi/GTBi/BT)=(BTBi−GTGi)∗woeiIV=k=0∑nIVi
IV衡量一个特征在某个分划下的总信息量,和信息熵相似.
每个变量的分箱结构应保证该分箱下,IV取极大值。
IV值衡量指标
IV | 预测能力 |
---|---|
<0.03 | 无预测能力 |
0.03~0.09 | 低 |
0.1~0.29 | 中 |
0.3~0.49 | 高 |
>0.5 | 极高 |