Bootstrap

机器学习篇-day05-ID3决策树 C4.5决策树 CART决策树-回归决策树 剪枝

一. 决策树简介

主要用于分类

概述

简介

概念

决策树是一种树形结构,树中每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果, 根节点尤为重要.

构建决策树步骤

  1. 特征选择:选取有较强分类能力的特征。

  2. 决策树生成:根据选择的特征生成决策树。

  3. ★决策树也易过拟合,采用剪枝的方法缓解过拟合。

二. ID3决策树

ID3 树是基于信息增益构建的决策树.

信息熵

定义

  • 熵在信息论中代表随机变量不确定度的度量。

  • 熵越大,数据的不确定性度越高, 稳定性越低

  • 熵越小,数据的不确定性越低, 稳定性越高

举例说明

数据α 包含了 8 种信息,数据 β 包含了 4 种信息,

特征α 的信息熵大于特征 β 的信息熵。

计算方式

公式
例子

信息增益

信息增益越大, 则该特征越重要, 同时, 信息增益是ID3决策树的分裂依据

概念

特征a对训练数据集D的信息增益𝐺𝑎𝑖𝑛(𝐷, 𝑎)或g(D,a),定义为集合D的熵H(D)与特征a给定条件下D的熵H(D |a)之差。

公式

举例

ID3树的构建过程

流程

  1. 计算每个特征的信息增益

  2. 使用信息增益最大的特征将数据集 拆分为子集

  3. 使用该特征(信息增益最大的特征)作为决策树的一个节点

  4. 使用剩余特征对子集重复上述(1,2,3)过程

举例

三. C4.5决策树

解决: ID3偏向于选择种类多的特征作为分裂依据

信息增益率

信息增益率越大越好

计算方法

信息增益率本质

特征的信息增益 ➗ 特征的内在信息

相当于对信息增益进行修正,增加一个惩罚系数

特征取值个数较多时,惩罚系数较小;特征取值个数较少时,惩罚系数较大。

惩罚系数:数据集D以特征a作为随机变量的熵的倒数

举例

总结

四. CART决策树

CART决策树(Classification and Regression Tree)

Cart模型是一种决策树模型,它即可以用于分类,也可以用于回归。

Cart回归树使用平方误差最小化策略,

Cart分类生成树采用的基尼指数最小化策略。

基尼指数

用来确定分裂点, 越小越好, 越小的越靠近根节点

基尼值

从数据集D中随机抽取两个样本,其类别标记不一致的概率。

​ Gini(D)值越小,数据集D的纯度越高。

基尼指数

选择使划分后基尼系数最小的属性作为最优化分属性。

注意

  1. 信息增益(ID3)、信息增益率值越大(C4.5),则说明优先选择该特征。

  2. 基尼指数值越小(CART),则说明优先选择该特征。

举例

需求

分析是否有房

分析婚姻状况

只能二叉树, 因此分情况统计

分析年收入

结果

总结

名称提出时间分支方式特点
ID31975信息增益1.ID3只能对离散属性的数据集构成决策树 <br />2.倾向于选择取值较多的属性
C4.51993信息增益率1.缓解了ID3分支过程中总喜欢偏向选择值较多的属性 <br />2.可处理连续数值型属性,也增加了对缺失值的处理方法 <br />3.只适合于能够驻留于内存的数据集,大数据集无能为力
CART1984基尼指数1.可以进行分类和回归,可处理离散属性,也可以处理连续属性 <br />2.采用基尼指数,计算量减小 <br />3.一定是二叉树

五. 泰坦尼克号案例

决策树API

sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)
​
Criterion: 特征选择标准 
"gini"或"entropy",前者(默认)代表基尼系数(CART),后者代表信息增益(ID3)。
​
min_samples_split:内部节点再划分所需最小样本数
​
min_samples_leaf:叶子节点最少样本数
​
max_depth:决策树最大深度

泰坦尼克号生存案例

代码

# 1.导入依赖包
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, classification_report
import matplotlib.pyplot as plt
​
​
# 2.读取数据及预处理
# 2.1 读取数据
data = pd.read_csv('data/train.csv')
# data.info()
# print(data.head())
# 2.2 数据处理
x = data[['Age', 'Pclass', 'Sex']]
y = data.Survived
# 2.3 缺失值处理
x.Age.fillna(x['Age'].mean(), inplace=True)
​
print(x.Age)
x = pd.get_dummies(x)
​
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=21, random_state=21)
​
​
# 3.模型训练
model = DecisionTreeClassifier()
model.fit(x_train, y_train)
​
​
# 4.模型预测与评估
# 4.1 模型预测
y_predict = model.predict(x_test)
# 4.2 模型评估
print('准确率(直接评估): ', model.score(x_test, y_test))
print('准确率(预测后评估): ', accuracy_score(y_test, y_predict))
​
print('精确率: ', precision_score(y_test, y_predict))
print('召回率: ', recall_score(y_test, y_predict))
print('f1值: ', f1_score(y_test, y_predict))
print('AUC值: ', roc_auc_score(y_test, y_predict))
​
myreport = classification_report(y_predict, y_test, target_names=['died', 'survived'])
print('myreport-->\n', myreport)
​
# 4.3 可视化
plt.figure(figsize=(20, 20))
plot_tree(
    model,
    max_depth=5,
    filled=True,
    fontsize=20,
    feature_names=['Pclass', 'Age', 'Sex_female', 'Sex_male'],
    class_names=['died', 'survived']
)
plt.show()
​

结果图

六. CART回归决策树

构建原理

原理

CART 回归树和CART分类树的不同之处在于

  1. CART分类树预测输出的是一个离散值,CART回归树预测输出的是一个连续值

  2. CART分类树使用基尼指数作为划分、构建树的依据,CART 回归树使用平方损失

  3. 分类树使用叶子节点多数类别作为预测类别,回归树则采用叶子节点里均值作为预测输出

CART 回归树的平方损失

举例

 

总结

  1. 选择一个特征,将该特征的值进行排序,取相邻点计算均值作为待划分点

  2. 根据所有划分点,将数据集分成两部分:R1、R2

  3. R1 和 R2 两部分的平方损失相加作为该切分点平方损失

  4. 取最小的平方损失的划分点,作为当前特征的划分点

  5. 以此计算其他特征的最优划分点、以及该划分点对应的损失值

  6. 在所有的特征的划分点中,选择出最小平方损失的划分点,作为当前树的分裂点

线性回归-回归决策树对比

案例介绍

代码演示

# 导包
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor  # 回归决策树
from sklearn.linear_model import LinearRegression  # 线性回归
​
​
def dm01_回归分类():
    # 准备数据
    x = np.array(list(range(1, 11))).reshape(-1, 1)     # reshape => 重塑
    y = np.array([5.56, 5.70, 5.91, 6.40, 6.80, 7.05, 8.90, 8.70, 9.00, 9.05])
    print(x)
    print(y)
​
    # 模型训练
    mode1 = DecisionTreeRegressor(max_depth=1)     # 决策树
    mode2 = DecisionTreeRegressor(max_depth=3)     # 决策树
    mode3 = LinearRegression()      # 线性回归
    mode1.fit(x, y)
    mode2.fit(x, y)
    mode3.fit(x, y)
​
    # 模型预测
    x_test = np.arange(0.0, 10.0, 0.01).reshape(-1, 1)      # 生成0 ~ 10 的1000个点
    y_predict1 = mode1.predict(x_test)
    y_predict2 = mode2.predict(x_test)
    y_predict3 = mode3.predict(x_test)
    print(y_predict1, y_predict2, y_predict3)
​
    # 结果可视化
    plt.figure(figsize=(10, 6), dpi=100)
    plt.scatter(x, y, label='data')     # 绘制训练姐数据点
​
    plt.plot(x_test, y_predict1, label='max_depth=1')   # 绘制回归决策树的数据点
    plt.plot(x_test, y_predict2, label='max_depth=3')   # 绘制回归决策树的数据点
    plt.plot(x_test, y_predict3, label='linear')        # 绘制线性回归的数据点
​
    plt.xlabel('data')
    plt.ylabel('target')
​
    plt.title('DecisionTreeRegressor')
    plt.legend()
    plt.show()
​
​
if __name__ == '__main__':
    dm01_回归分类()

结果图

七. 决策树剪枝

剪枝介绍

作用

决策树剪枝是一种防止决策树过拟合的一种正则化方法;提高其泛化能力。

原理

把子树的节点全部删掉,使用用叶子节点来替换

剪枝方法

  1. 预剪枝(边构建边剪枝):指在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能提升,则停止划分并将当前节点标记为叶节点;

  2. 后剪枝(先构建后剪枝, 自底向上):是先从训练集生成一棵完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。

剪枝思想-举例介绍

预剪枝

基于预剪枝策略从上表数据所生成的决策树如上图所示,其验证集精度为71.4%.

后剪枝

先利用训练集完整的生成一颗树,有6个内部节点。分别考察这些节点作为叶子节点模型的准确率,若准确率上升,则剪掉,否则保留。

预-后剪枝对比

预剪枝
  1. 优点: 预剪枝使决策树的很多分支没有展开,不但降低了过拟合风险,还显著减少了决策树的训练、测试时间开销

  2. 缺点: 有些分支的当前划分虽不能提升泛化性能,但后续划分却有可能导致性能的显著提高;预剪枝决策树也带来了欠拟合的风险

后剪枝
  1. 优点: 比预剪枝保留了更多的分支。一般情况下,后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝

  2. 缺点: 后剪枝先生成,后剪枝。自底向上地对树中所有非叶子节点进行逐一考察,训练时间开销比未剪枝的决策树和预剪枝的决策树都要大得多。

;