这是educoder平台,第四章决策树作业展示。
PS:创作不易,请你点点你鼠标,给个关注吧!!!
目录
正文
题目
1.
1、决策树是一类常见的机器学习方法,是基于树结构进行决策的。一般的,一棵决策树包含两类结点:内部节点和叶结点,其中内部节点表示表示一个特征或属性,叶结点表示_______决策结果______
2.
2、在决策树学习中,一般情况下,属性a的信息增益越大,则意味着使用属性a来进行划分获得的_________纯度提绳越大___________。
3.
3、信息增益准则对__________可取值数目较多__________的属性有所偏好,增益率准则对___________可取值数目较小_________的属性有所偏好。
4.
4、在决策树学习中,C4.5决策树算法中采用_____二分法_____对连续属性进行离散化处理。
5.
5、决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。特征选择的目的在于选择对训练数据能够分类的特征。特征选择的关键是其准则,常用的准则有哪些,请简单描述。
答:常用准则有信息增益、增益率、基尼指数。
信息增益:
属性的信息增益越大,则意味着使用该属性来划分所获得的纯度提升越大,因此,可用信息增益来进行决策树的划分属性选择。信息增益准则对可取值数目较多的属性有所偏好。
增益率:
增益率在信息增益的基础上除以一个固有值,增益率准则对可取值数目较少的属性有所偏好。
基尼指数:
基尼值反映了数据集中随机抽取两个样本,其类别标记不一致的概率,数据集的纯度越高。属性的基尼指数在基尼值的基础上乘以一个固定值,选择是的划分后基尼指数最小的属性作为划分属性。
6.
6、目标变量在训练集上的 10 个实际值 [0,0,0,0,1,1,1,1,1,1],则目标变量的熵是。
答:-(5/8 log(5/8)+3/5log(3/5))
7.
7、C4.5决策树算法中采用_______二分法___________对连续属性进行处理。
8.
8、常用的决策树学习算法有ID3、C4.5和CART,介绍它们采用的特征选择准则是什么?
答:
ID3采用信息增益准则;
C4.5采用增益率准则;
CART采用基尼指数准则。
9.
9、简述决策树生成与决策树剪枝。
答:
决策树生成是一个递归过程,在决策树基本算法中,有三种情况会导致递归返回:
1.当前节点包含的样本全属于同一类别,无需划分。
2.但前属性集为空,或是所有样本在所有属性上取值相同,无法划分。
3.单前节点包含的样本集为空,不能划分。
决策树剪枝是决策树学习算法对付过拟合的主要手段。决策树剪枝的基本策略有预剪枝和后剪枝:
预剪枝是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点;后剪枝则是先从训练集生成一刻完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的指数替换为叶节点能带来决策树泛化性能的提升,则将该子树替换为叶节点。
10.
10、决策树剪枝的基本策略有预剪枝和后剪枝,请简述并分析两种剪枝策略。
答:
预剪枝:在决策树生成过程中,对每个节点在划分之前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分,并将当前节点标记为叶节点。
后剪枝:先从训练集中生成一课完整的决策树,然后自底向上对非叶子节点进行考察,若将该节点对应的子树替换为叶子结点能带来决策树泛化性能的提升,则将该子树替换为叶节点。
11.
根据表4.1中的西瓜数据集,计算属性“纹理”的信息增益。
答:
Ent(D)= 0.998
且 “纹理”有3个属性取值{清晰,稍糊,模糊},分别设为D1 D2 D3。
Ent(D1)=-(3/9log3/9+6/9log6/9)
Ent (D2)=-(4/5log4/5+1/5log1/5)
Ent(D3) = -(1log1)
Gain(D,纹理) = 0.998- =0.381