Bootstrap

评分卡模型开发-数据集准备

在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。
简单随机抽样:

smp1<-sample(nrow(GermanCredit),10,replace=F)

样本集可表示为:

train_data=GermanCredit[-smp1,]
test_data=GermanCredit[smp1,]

分层抽样:在R中,使用strata()函数来实现上述的分成抽样方法:

strata(data,stratanames=NULL,size,method=
;