一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++
[第六章]决策树分类算法
分类过程
根据数据集和学习算法训练分类模型,能够拟合输入数据中类别与属性集的联系,能够预测未知样本类型
学习阶段
建立分类模型
样本由m个描述属性和一个类别属性组成
训练数据集→算法→正确的模型
- 离散域→离散属性
- 连续域→连续属性
- 类别属性C=(c1,c2…cm)
- 训练数据集X1=(c1,c2…cm,C)
- 不同分类算法得到不同分类模型
- 准确率:正确预测新样本所属类别的能力
- 速度:建立模型的开销
- 强壮性:
- 可伸缩性
- 可解释性
评估模型的准确率
Positive阳 Nagitive阴
1
预测的正例
预测的负例
真正的正例
TP
FN
真正的负例
FP
TN
T和F是模型预测来说是否正确
- 正确率
- 召回率
- 调和平均
- 准确率
- AUC函数介于x周的面积
- x轴是FP,y轴是TP
分类阶段
预处理→新样本→分类模型→新样本预测
决策树分类
一颗决策树是对样本空间的一种划分
决策树
- 结点
- 根节点
- 对应分类属性集的一个属性
- 内部节点
- 对应分类属性集的一个属性
- 叶子节点
- 对应分类标签中的一个分类
- 如何选择测试属性
- 如何停止划分样本
- 子区域同类或空
- 深度到达一定程度或样本个数少于某数
ID3算法
信息增益
- 描述属性(1≤k≤m)
- 每一个属性(1≤j≤v)的值域为
- S中描述属性C取值为ci的元组个数为
- 类别属性C取值为(1≤i≤u)其值域为
- S中类别属性C取值为的元组个数为
- 描述属性取(1≤j≤v)且类别属性C取值为(1≤i≤u)的元组个数为
自信息量
某个属性B,取值为{}

- 概率与自信息量成反比
- 反应不确定性
无条件熵
u是P()中i的个数,即一个属性的种类

- 如果每一个种类的可能性基本相同,不确定性最大
条件熵
一个描述属性(1≤j≤v)取aj的个数,同时类别属性C取值为(1≤i≤u)的个数

信息增益
属性Ak(1≤k≤m)
- 越大,说明这个条件属性影响更大
构造
- 计算所有条件属性的信息增益
- 信息增益大的作为根节点,其取值作为子树的分类
- 每一个子树当作根节点分别计算剩下条件属性的信息结点增益
- 直到该孩子的类别属性同类或为空,停止划分,叶节点为该类别属性
C4.5算法
信息增益率
连续属性离散化
- 排序
- 两个相邻值的平均点作为分割点
- 计算分割点划分样本集S的信息增益,选择具有最大信息增益的分割点作为最终的划分点
空值的处理
删掉空值样本
连续属性:平均值
离散属性:频率最高、空值作为一个取值
比较
- C4.5与ID3的比较
ØID3算法使用信息增益进行属性选择,而C4.5使用信息增益率进行属性选择
ØID3只能处理分类变量,而C4.5可以处理连续变量
ØID3算法不能处理空值
SQL Server决策树分类
电子商务数据的决策树分类
Prev
[第五章]关联分析算法
Next
[第七章]贝叶斯分类算法
Loading...