[第六章]决策树分类算法

分类过程

根据数据集和学习算法训练分类模型,能够拟合输入数据中类别与属性集的联系,能够预测未知样本类型

学习阶段

建立分类模型

样本由m个描述属性和一个类别属性组成
训练数据集→算法→正确的模型
  • 离散域→离散属性
  • 连续域→连续属性
  • 类别属性C=(c1,c2…cm)
  • 训练数据集X1=(c1,c2…cm,C)
  • 不同分类算法得到不同分类模型
  • 准确率:正确预测新样本所属类别的能力
  • 速度:建立模型的开销
  • 强壮性:
  • 可伸缩性
  • 可解释性

评估模型的准确率

Positive阳 Nagitive阴
1
预测的正例
预测的负例
真正的正例
TP
FN
真正的负例
FP
TN
 
T和F是模型预测来说是否正确
  • 正确率
  • 召回率
  • 调和平均
  • 准确率
  • AUC函数介于x周的面积
    • x轴是FP,y轴是TP

分类阶段

预处理→新样本→分类模型→新样本预测

决策树分类

一颗决策树是对样本空间的一种划分

决策树

  • 结点
    • 根节点
      • 对应分类属性集的一个属性
    • 内部节点
      • 对应分类属性集的一个属性
    • 叶子节点
      • 对应分类标签中的一个分类
  • 如何选择测试属性
  • 如何停止划分样本
    • 子区域同类或空
    • 深度到达一定程度或样本个数少于某数

ID3算法

信息增益

  • 描述属性(1≤km
    • 每一个属性(1≤j≤v)的值域为
    • S中描述属性C取值为ci的元组个数为
  • 类别属性C取值为(1≤iu)其值域为
    • S中类别属性C取值为的元组个数为
  • 描述属性(1≤jv)且类别属性C取值为(1≤iu)的元组个数为

自信息量

某个属性B,取值为{}
notion image
  • 概率与自信息量成反比
  • 反应不确定性

无条件熵

u是P()中i的个数,即一个属性的种类
notion image
  • 如果每一个种类的可能性基本相同,不确定性最大

条件熵

一个描述属性(1≤j≤v)取aj的个数,同时类别属性C取值为(1≤iu)的个数
notion image

信息增益

属性Ak(1≤km
  • 越大,说明这个条件属性影响更大

构造

  • 计算所有条件属性的信息增益
  • 信息增益大的作为根节点,其取值作为子树的分类
  • 每一个子树当作根节点分别计算剩下条件属性的信息结点增益
  • 直到该孩子的类别属性同类或为空,停止划分,叶节点为该类别属性

C4.5算法

信息增益率

连续属性离散化

  • 排序
  • 两个相邻值的平均点作为分割点
    • 计算分割点划分样本集S的信息增益,选择具有最大信息增益的分割点作为最终的划分点

空值的处理

删掉空值样本
连续属性:平均值
离散属性:频率最高、空值作为一个取值

比较

  • C4.5与ID3的比较
ØID3算法使用信息增益进行属性选择,而C4.5使用信息增益率进行属性选择
ØID3只能处理分类变量,而C4.5可以处理连续变量
ØID3算法不能处理空值

SQL Server决策树分类

电子商务数据的决策树分类

Prev
[第五章]关联分析算法
Next
[第七章]贝叶斯分类算法
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++