[第六章]决策树分类算法

分类过程

根据数据集和学习算法训练分类模型，能够拟合输入数据中类别与属性集的联系，能够预测未知样本类型

学习阶段

建立分类模型

样本由m个描述属性和一个类别属性组成

训练数据集→算法→正确的模型

离散域→离散属性

连续域→连续属性

类别属性C=（c1,c2…cm）

训练数据集X1=(c1,c2…cm,C)

不同分类算法得到不同分类模型

准确率：正确预测新样本所属类别的能力

速度：建立模型的开销

强壮性：

可伸缩性

可解释性

评估模型的准确率

Positive阳 Nagitive阴

预测的正例

预测的负例

真正的正例

真正的负例

T和F是模型预测来说是否正确

正确率

召回率

调和平均

准确率

AUC函数介于x周的面积

x轴是FP，y轴是TP

分类阶段

预处理→新样本→分类模型→新样本预测

决策树分类

一颗决策树是对样本空间的一种划分

决策树

结点

根节点

对应分类属性集的一个属性

内部节点

对应分类属性集的一个属性

叶子节点

对应分类标签中的一个分类

如何选择测试属性

如何停止划分样本

子区域同类或空
深度到达一定程度或样本个数少于某数

ID3算法

信息增益

描述属性（1≤k≤m）

每一个属性（1≤j≤v）的值域为
S中描述属性C取值为ci的元组个数为

类别属性C取值为（1≤i≤u）其值域为

S中类别属性C取值为的元组个数为

描述属性取（1≤j≤v）且类别属性C取值为（1≤i≤u）的元组个数为

自信息量

某个属性B，取值为{}

概率与自信息量成反比

反应不确定性

无条件熵

u是P()中i的个数，即一个属性的种类

如果每一个种类的可能性基本相同，不确定性最大

条件熵

一个描述属性（1≤j≤v）取aj的个数，同时类别属性C取值为（1≤i≤u）的个数

信息增益

属性Ak（1≤k≤m）

越大，说明这个条件属性影响更大

构造

计算所有条件属性的信息增益

信息增益大的作为根节点，其取值作为子树的分类

每一个子树当作根节点分别计算剩下条件属性的信息结点增益

直到该孩子的类别属性同类或为空，停止划分，叶节点为该类别属性

C4.5算法

信息增益率

连续属性离散化

排序

两个相邻值的平均点作为分割点

计算分割点划分样本集S的信息增益，选择具有最大信息增益的分割点作为最终的划分点

空值的处理

删掉空值样本

连续属性：平均值

离散属性：频率最高、空值作为一个取值

比较

C4.5与ID3的比较

ØID3算法使用信息增益进行属性选择，而C4.5使用信息增益率进行属性选择

ØID3只能处理分类变量，而C4.5可以处理连续变量

ØID3算法不能处理空值

SQL Server决策树分类

电子商务数据的决策树分类

[第五章]关联分析算法

[第七章]贝叶斯分类算法