Bootstrap

7.Python数据分析项目之银行客户流失分析

1.总结

预测类数据分析项目

流程具体操作
基本查看查看缺失值(可以用直接查看方式isnull、图像查看方式查看缺失值missingno)、查看数值类型特征与非数值类型特征、一次性绘制所有特征的分布图像、单独绘制目标值与所有数值型参数之间的关系、单独绘制目标值与所有字符型参数之间的关系
预处理缺失值处理(填充)拆分数据(获取有需要的值) 、统一数据格式、特征工程(特征编码、0/1字符转换、自定义、特征衍生) 、降维(特征相关性、PCA降维)、
数据分析groupby分组求最值数据、seaborn可视化
预测拆分数据集、建立模型(机器学习:RandomForestRegressor、LogisticRegression、GradientBoostingRegressor、GradientBoostingClassifier、RandomForest)、训练模型、预测、评估模型(ROC曲线、MSE、MAE、RMSE、R2)、调参(GridSearchCV)

数量查看:条形图
占比查看:饼图
数据分区分布查看:概率密度函数图
查看相关关系:条形图、热力图
分布分析:分类直方图(countplot)、分布图-带有趋势线的直方图(distplot)

自然语言处理项目:

流程具体操作
基本查看导入数据(surprise.Dataset 、pickle)
预处理获取数据转换为对应的数据格式、Dataset构建训练集、
数据可视化(绘制词云图)分组统计数量、训练模型(学习词频信息)、使用自定义背景图、绘制词云图
建模(文本分类)文本分类(LDA模型)、机器学习(朴素贝叶斯)、深度学习(cnn、LSTM、GRU)

推荐系统

流程具体操作
基本查看导入数据 、获取数据转换为列表、
预处理删除空值、关键词抽取(基于 TF-IDF、基于TextRank )、分词(jieba) 、关键词匹配(词袋模型)、处理分词结果(删除特殊字符、去除停用词)
建模(推荐系统surprise)与预测KNNBaseline算法

2.银行业客群及产品类别

银行客户群

  • 个人客户
    银行对个人客户的业务主要是以合理安排客户的个人财物为手段,为之提供存取款、小额贷款、代理投资理财、信息咨询及其他各类中介服务,由此为客户取得收益并帮助其防范风险,同时提高银行自身效益。

  • 公司客户
    公司客户主要指与银行发生业务关系的各企事业单位及政府机关,其中以企业单位为主体。公司客户能为银行带来大量存款、贷款和收费业务,并成为银行利润的重要来源。

  • 零售客户
    包括消费信贷客户、信用卡客户、贵宾理财客户等

银行产品类别

  • 信贷类资产

    • 信用贷款
    • 抵押贷款
    • 保证书担保贷款
    • 贷款证券化
    • 负债业务
  • 活期存款

    • 定期存款
    • 储蓄存款
    • 可转让定期存单
    • 其他种类

3.客户流失预警的模型建立分析

3.1 客户流失预警模型的业务意义

  • 严格地讲,客户流失指的是客户在该行所有业务终止,并销号。但是具体业务部门可单独定义在该部门的全部或某些业务上,客户的终止行为

  • 对专家及金融业业内人士的走访及调研结果表明,商业银行客户流失较为严重。国内商业银行,客户流失率可达20%甚至更高。而获得新客户的成本,可达维护现有客户的5倍。

  • 因此,从海量客户交易记录中挖掘出对流失有影响的信息,建立高效的客户流失预警体系尤为重要。

3.2 客户流失主要原因

  • 价格流失
  • 产品流失
  • 服务流失
  • 市场流失
  • 促销流失
  • 技术流失
  • 政治流失

3.3 维护客户关系的基本方法

  • 追踪制度
  • 产品跟进
  • 扩大销售
  • 维护访问
  • 机制维护

3.4 建立量化模型,合理预测客群的潜在流失风险

  • 常用的风险因子
  • 客户持有的产品数量、种类
  • 客户的年龄、性别
  • 受地理区域的影响
  • 受产品类别的影响
  • 交易的间隔时间
  • 营销、促销手段
  • 银行的服务方式和态度

4.数据描述

import warnings
warnings.filterwarnings('ignore')

import pandas as pd
from pandas.plotting import scatter_matrix
import numbers
import numpy as np
import math
import matplotlib.pyplot as plt
import random
from numpy import *
import operator
import numbers
import datetime
import time
import seaborn as sns
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from scipy.stats import chisquare
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
from sklearn import ensemble, metrics
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
%matplotlib inline

# 读取银行内部数据 重点关注CHURN_CUST_IND(是否流失客户,0流失,1未流失)
banChurn = pd.read_csv('bankChurn.csv')
externaData = pd.read_csv('ExternalData.csv')
banChurn.head() 
# 数值型数据的描述
banChurn.describe()
# 字符型数据的描述
banChurn.describe(include=np.object_)

externaData.head()
# 数值型数据的描述
externaData.describe()
# 字符型数据的描述
externaData.describe(include=np.object_)

5.数据分析

5.1 绘制每个特征的分布

# 绘制每个特征的分布
# dataset:数据集  cols:绘图中每行显示的列数
def plot_distribution(dataset, cols=5, width=20, height=15, hspace=0.2, wspace=0.5):
    plt.style.use('seaborn-whitegrid')
    fig = plt.figure(figsize=(width,height))
    fig.subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=wspace, hspace=hspace)
    rows = math.ceil(float(dataset.shape[1]) / cols)  # 绘图的行数
    for i, column in enumerate(dataset.columns):  # 遍历数据集中的每一列(特征)
        ax = fig.add_subplot(rows, cols, i + 1)
        ax.set_title(column)
        #非数值型数据
        if dataset.dtypes[column] == np.object_:
            g = sns.countplot(y=column, data=dataset)  # 绘制数量描述图
            substrings = [s.get_text()[:18] for s in g.get_yticklabels()]
            g.set(yticklabels=substrings)
            plt.xticks(rotation=25)
        
        else:   # 数值型数据
            g = sns.distplot(dataset[column])   # 直方图
            plt.xticks(rotation=25)
plot_distribution(bankChurn, cols=5, width=20, height=160, hspace=0.45, wspace=0.5)

在这里插入图片描述

5.2 数值型变量绘图分析

# 将数值型变量绘图分析
# target 目标,是否流失
# 分析df数据集中的col列对target的影响

def NumVarPerf(df,col,target,truncation=False):
    '''
    :param df: the dataset containing numerical independent variable and dependent variable
    :param col: independent variable with numerical type
    :param target: dependent variable, class of 0-1
    :param truncation: indication whether we need to do some truncation for outliers
    :return: the descriptive statistics
    '''
    #extract target variable and specific indepedent variable
    validDf = df.loc[df[col] == df[col]][[col,target]]  # 提取非空(col列值非nan)样本的col列和target列
    #the percentage of valid elements
    validRcd = validDf.shape[0]*1.0/df.shape[0]  # 计算有效样本(col列值非nan)的比例
    #format the percentage in the form of percent
    validRcdFmt = "%.2f%%"%(validRcd*100)
    #the descriptive statistics of each numerical column
    descStats = validDf[col].describe()
    mu = "%.2e" % descStats['mean']
    std = "%.2e" % descStats['std']
    maxVal = "%.2e" % descStats['max']
    minVal = "%.2e" % descStats['min']
    #we show the distribution by churn/not churn state
    x = validDf.loc[validDf[target]==1][col]  # 提取流失客户的col列
    y = validDf.loc[validDf[target]==0][col]  # 提取现有未流失客户的col列
    xweights = 100.0 * np.ones_like(x) / x.size
    yweights = 100.0 * np.ones_like(y) / y.size
    #if need truncation, truncate the numbers in 95th quantile
    if truncation == True:  
        pcnt95 = np.percentile(validDf[col],95)  # 获取col列数据的95分位数
        x = x.map(lambda x: min(x,pcnt95))  # 如果超过95分位数,则说明是极端值,使用95分位数
        y = y.map(lambda x: min(x,pcnt95))  # 如果超过95分位数,则说明是极端值,使用95分位数
    fig, ax = plt.subplots()
    # weights参数:与x形状相同的权重数组;将x中的每个元素乘以对应权重值再计数
    ax.hist(x, weights=xweights, alpha=0.5,label='Attrition') # Attrition流失
    ax.hist(y, weights=yweights, alpha=0.5,label='Retained') # Retained 保持
    titleText = 'Histogram of '+ col +'\n'+'valid pcnt ='+validRcdFmt+', Mean ='+mu + ', Std='+std+'\n max='+maxVal+', min='+minVal
    ax.set(title= titleText, ylabel='% of Dataset in Bin')
    ax.margins(0.05)
    ax.set_ylim(bottom=0)
    plt.legend(loc='upper right')
    plt.show()
# 未截断极端值,绘制的图不能很好刻画存款余额与是否流失的关系
NumVarPerf(bankChurn,'SAV_CUR_ALL_BAL','CHURN_CUST_IND',truncation=False)

在这里插入图片描述

5.3 字符型变量绘图分析

# 字符型变量绘图分析
def CharVarPerf(df,col,target):
    '''
    :param df: the dataset containing numerical independent variable and dependent variable
    :param col: independent variable with numerical type
    :param target: dependent variable, class of 0-1
    :return: the descriptive statistics
    '''
    validDf = df.loc[df[col] == df[col]][[col, target]]
    validRcd = validDf.shape[0]*1.0/df.shape[0]
    recdNum = validDf.shape[0]
    validRcdFmt = "%.2f%%"%(validRcd*100)
    freqDict = {}
    churnRateDict = {}
    #for each category in the categorical variable, we count the percentage and churn rate
    for v in set(validDf[col]):   # 遍历去重后的列值(集合去重)
        vDf = validDf.loc[validDf[col] == v]
        freqDict[v] = vDf.shape[0]*1.0/recdNum  # 某特征值占的比率
        churnRateDict[v] = sum(vDf[target])*1.0/vDf.shape[0]  # 某特征的值对应的流失率
    descStats = pd.DataFrame({'percent':freqDict,'churn rate':churnRateDict})
    fig = plt.figure()  # Create matplotlib figure
    ax = fig.add_subplot(111)  # Create matplotlib axes
    ax2 = ax.twinx()  # Create another axes that shares the same x-axis as ax.
    plt.title('The percentage and churn rate for '+col+'\n valid pcnt ='+validRcdFmt)
    descStats['churn rate'].plot(kind='line', color='red', ax=ax)
    descStats.percent.plot(kind='bar', color='blue', ax=ax2, width=0.2,position = 1)
    ax.set_ylabel('churn rate')
    ax2.set_ylabel('percentage')
    plt.show()
# GENDER_CD(性别代码)与“是否流失”的关系
CharVarPerf(bankChurn,'GENDER_CD','CHURN_CUST_IND')

在这里插入图片描述

6.数据预处理

6.1 填充缺失值(针对数值型数据)

def MakeupMissing(df,col,types,method):  # 针对数值型数据填充缺失值
    '''
        df: 数据集DataFrame
        col:列名
        types:判断类型
        method:填充方式
    '''
    validDf = df.loc[df[col] == df[col]][[col]]  # 获取col列非空(非nan)的记录
    if validDf.shape[0] == df.shape[0]:   # 没有缺失值记录
        return "{} 列没有缺失值".format(col)

    missingList = [i for i in df[col]]  # 取出col列的所有值(包括了缺失值)
    if types == "Continuous": # 只针对数值型列的数据
        if method not in ["Mean","Random"]:   # 填充方式仅限于“平均值填充”与“随机值填充”
            return "填充方式仅限于平均值填充(Mean)与随机值填充(Random)"

        descStats = validDf[col].describe()  # 获取有效数据集的描述信息数据
        mu = descStats["mean"]  # 有效数据集列的均值
        std = descStats["std"]  # 有效数据集列的标准差
        maxVal = descStats["max"]  # 有效数据集列的最大值
        # 检测极端值(使用3-sigma方式检测)
        if maxVal > mu + 3 * std:   # 先判断最大有效值是否超过指定的边界(是否为极端值)
            for i in list(validDf.index):   # 逐行遍历validDf
                if validDf.loc[i][col] > mu + 3 * std:  # 判断当前行的col列是否是极端值
                    validDf.loc[i][col] = mu + 3 * std  # 替换掉当前的极端值

            mu = validDf[col].describe()['mean']  # 重新计算col列的均值
        
        for i in list(df.index):   # 遍历原始df数据集
            if df.loc[i][col] != df.loc[i][col]:   # 如果当前行的col列值是缺失值
                if method == "Mean":  # 判断填充方式
                    missingList[i] = mu   # 填充当前的缺失值
                elif method == "Random": 
                    # 从validDf[col]有效数据列中随机选择一个数,作为当前缺失值的填充值
                    missingList[i] = random.sample(validDf[col],1)[0]
    print("{}列的缺失值填充完毕".format(col))
    return missingList

6.2 数字编码

## 对类别变量使用数字编码: 计算出每一个列中的不同值对应的客户流失率
def Encoder(df,col,target):
    encoder = {}
    for v in set(df[col]): # 取出df数据集中col列的所有不重复值(集合去重)
        if v == v: # 如果正在遍历的不是缺失值
            subDf = df[df[col] == v]   # 获取原始数据集中col列的值为当前遍历值的记录
        else: # 如果正在遍历的是缺失值
            xList = list(df[col])
            # 获取df[col]所有缺失值对应的索引
            nanInd = [i for i in range(len(xList)) if xList[i] != xList[i]]
            subDf = df.loc[nanInd]  # 所有缺失值的记录
        # 记录col列的每个值与其对应的客户流失率
        encoder[v] = sum(subDf[target]) * 1.0 / subDf.shape[0]   
    newCol = [encoder[i] for i in df[col]]  # 获取每个值对应的客户流失率
    return newCol

6.3 两变量的比

## 计算两个变量比的函数
def ColumnDivide(df,colNumerator,colDenominator):
    N = df.shape[0]  # 数据集的行数
    rate = [0] * N 
    xNum = list(df[colNumerator])
    xDenom = list(df[colDenominator])
    for i in range(N):
        if xDenom[i] > 0:
            rate[i] = xNum[i] * 1.0 / xDenom[i]  # 给rate填充比值
        else:
            rate[i] = 0
    return rate

6.4 合并数据集

ALLData = pd.merge(bankChurn,externaData,on='CUST_ID')
ALLData

在这里插入图片描述

6.5 调用预处理函数

modelData = AllData.copy()
indepCols = list(modelData.columns)
#移除目标列
indepCols.remove('CHURN_CUST_IND')
# 移除客户ID列
indepCols.remove('CUST_ID')

except_var = []   # 存放处理过程发生异常的列名
for var in indepCols:
    try:
        # 将当前遍历的列的值去重,然后存储到x0列表中
        x0 = list(set(modelData[var]))  
        #forgntvl(是否有境外旅行)列的处理
        if var == 'forgntvl':  
            x00 = [np.nan]
            # 如果正在遍历的'forgntvl'列的值非空
            [x00.append(i) for i in x0 if i not in x00 and i==i]
            x0 = x00
        if len(x0) == 1:  # 如果当前列的值只有一种值,则移除当前列
            print('Remove the constant column {}'.format(var))
            indepCols.remove(var)  # 移除列
            continue
        # x0去除空值,保存有效值到x列表中
        x = [i for i in x0 if i==i]   
        # 如果当前列的值属于数值型
        if isinstance(x[0],numbers.Real) and len(x)>4:
            if np.nan in x0:  # 如果当前列中存在缺失值,则填充
                print('nan is found in column {}, so we need to make up the missing value'.format(var))
                modelData[var] = MakeupMissing(modelData,var,'Continuous','Random')
        else:  # 如果当前列的值属于字符型
            print('Encode {} using numerical representative'.format(var))
            modelData[var] = Encoder(modelData, var, 'CHURN_CUST_IND')
    except:
        print("something is wrong with {}".format(var))
        except_var.append(var)
        continue

7.特征工程

生成新的特征(特征衍生)的常用方法
根据业务,求相关比率
根据业务,将相关列可以进行加和
根据业务,取多列特征中有代表性的特征 (以max为例)
根据业务,删除有极大相关性特征等

# 计算相关比,添加到新列(新特征)
modelData['AVG_LOCAL_CUR_TRANS_TX_AMT'] = ColumnDivide(modelData, 'LOCAL_CUR_TRANS_TX_AMT','LOCAL_CUR_TRANS_TX_NUM')
modelData['AVG_LOCAL_CUR_LASTSAV_TX_AMT'] = ColumnDivide(modelData, 'LOCAL_CUR_LASTSAV_TX_AMT','LOCAL_CUR_LASTSAV_TX_NUM')
#### 计算每个样本的指定五个列的最大值,添加到新列(新特征)volatilityMax中
maxValueFeatures = ['LOCAL_CUR_SAV_SLOPE','LOCAL_BELONEYR_FF_SLOPE','LOCAL_OVEONEYR_FF_SLOPE','LOCAL_SAV_SLOPE','SAV_SLOPE']
# 提取每个样本的相关波动率最大值作为新的特征volatilityMax
modelData['volatilityMax']= modelData[maxValueFeatures].apply(max, axis =1)
## 删除LOCAL_CUR_MON_AVG_BAL_PROP这个冗余特征 
#本币活期月日均余额占比 = 1 - 本币定期月日均余额占比
del modelData['LOCAL_CUR_MON_AVG_BAL_PROP']
## 对指定的特征列相加,得到新的特征
sumupCols0 = ['LOCAL_CUR_MON_AVG_BAL','LOCAL_FIX_MON_AVG_BAL']
sumupCols1 = ['LOCAL_CUR_WITHDRAW_TX_NUM','LOCAL_FIX_WITHDRAW_TX_NUM']
sumupCols2 = ['LOCAL_CUR_WITHDRAW_TX_AMT','LOCAL_FIX_WITHDRAW_TX_AMT']
sumupCols3 = ['COUNTER_NOT_ACCT_TX_NUM','COUNTER_ACCT_TX_NUM']
sumupCols4 = ['ATM_ALL_TX_NUM','COUNTER_ALL_TX_NUM']
sumupCols5 = ['ATM_ACCT_TX_NUM','COUNTER_ACCT_TX_NUM']
sumupCols6 = ['ATM_ACCT_TX_AMT','COUNTER_ACCT_TX_AMT']
sumupCols7 = ['ATM_NOT_ACCT_TX_NUM','COUNTER_NOT_ACCT_TX_NUM']

modelData['TOTAL_LOCAL_MON_AVG_BAL'] = modelData[sumupCols0].apply(sum, axis = 1)
modelData['TOTAL_WITHDRAW_TX_NUM'] = modelData[sumupCols1].apply(sum, axis = 1)
modelData['TOTAL_WITHDRAW_TX_AMT'] = modelData[sumupCols2].apply(sum, axis = 1)
modelData['TOTAL_COUNTER_TX_NUM'] = modelData[sumupCols3].apply(sum, axis = 1)
modelData['TOTAL_ALL_TX_NUM'] = modelData[sumupCols4].apply(sum, axis = 1)
modelData['TOTAL_ACCT_TX_NUM'] = modelData[sumupCols5].apply(sum, axis = 1)
modelData['TOTAL_ACCT_TX_AMT'] = modelData[sumupCols6].apply(sum, axis = 1)
modelData['TOTAL_NOT_ACCT_TX_NUM'] = modelData[sumupCols7].apply(sum, axis = 1)
## 根据指定列的比,创建新列(新特征)

# 分子列
numeratorCols = ['LOCAL_SAV_CUR_ALL_BAL','SAV_CUR_ALL_BAL','ASSET_CUR_ALL_BAL','LOCAL_CUR_WITHDRAW_TX_NUM','LOCAL_CUR_WITHDRAW_TX_AMT','COUNTER_NOT_ACCT_TX_NUM',
                 'ATM_ALL_TX_NUM','ATM_ACCT_TX_AMT','ATM_NOT_ACCT_TX_NUM']

# 分母列
denominatorCols = ['LOCAL_SAV_MON_AVG_BAL','SAV_MON_AVG_BAL','ASSET_MON_AVG_BAL','TOTAL_WITHDRAW_TX_NUM','TOTAL_WITHDRAW_TX_AMT','TOTAL_COUNTER_TX_NUM',
                   'TOTAL_ACCT_TX_NUM','TOTAL_ACCT_TX_AMT','TOTAL_NOT_ACCT_TX_NUM']

newColName = ["RATIO_"+str(i) for i in range(len(numeratorCols))]
# 分别求比,添加新特征
for i in range(len(numeratorCols)):
    modelData[newColName[i]] = ColumnDivide(modelData, numeratorCols[i], denominatorCols[i])

8.建模

本项目通过读取modelData.csv文件的数据(该文件已进行更细化的特征工程处理)进行建模,使用GradientBoostingClassifier模型进行建模。

# 通过读取modelData.csv文件(已进行了进一步特征处理)的数据进行建模
modelData = pd.read_csv("modelData.csv")
allFeatures = list(modelData.columns)  # 所有特征名称转换为列表
# 移除建模不需要的特征列
allFeatures.remove("CUST_ID")   # 移除客户ID列
allFeatures.remove("CHURN_CUST_IND")  # 移除客户流失标签列
# 拆分数据集为训练集和测试集
X_train,X_test,y_train,y_test = train_test_split(modelData[allFeatures],
            modelData["CHURN_CUST_IND"],random_state=10)
# 建模
gbc = GradientBoostingClassifier(random_state=10)  # 创建模型对象
gbc.fit(X_train,y_train)  # 拟合训练集(通过训练集对模型训练)
y_pred = gbc.predict(X_test)   # 对测试集进行预测
print("在测试集上的准确率",metrics.accuracy_score(y_test,y_pred))

9.调参

所谓调参,就是对使用模型的相关参数进行调整,已达到更好的预测准确率。
本项目使用GridSearchCV对象实现交叉验证的方式进行调参。

# 使用交叉验证的方式调参
# 提前将GradientBoostingClassifier需要调整的参数的范围设置好
param_test = {'n_estimators':range(20,81,10),
               'max_depth':range(3,8,2), 
               'min_samples_split':range(100,500,200)
              }
# 交叉验证,用来搜索最佳参数组合              
gsearch1 = GridSearchCV(estimator = GradientBoostingClassifier(learning_rate=0.1, min_samples_split=300,
                                  min_samples_leaf=20,max_depth=8,max_features='sqrt', subsample=0.8,random_state=10),
                       param_grid = param_test, scoring='roc_auc',cv=5)
gsearch1.fit(X_train,y_train)  # 在训练集上调参
# 查看最佳参数组合与分数
gsearch1.best_params_, gsearch1.best_score_

再将调到最好的参数给到测试集

# 将最佳参数设置到模型中
gbc = GradientBoostingClassifier(learning_rate=0.1, min_samples_split=100,
                                  min_samples_leaf=20,max_depth=3,max_features='sqrt', subsample=0.8,random_state=10,
                                  n_estimators=60)
gbc.fit(X_train,y_train)  # 拟合训练集(通过训练集对模型训练)
y_pred = gbc.predict(X_test)   # 对测试集进行预测
print("在测试集上的准确率",metrics.accuracy_score(y_test,y_pred))
;