[第五章]关联分析算法

关联分析概述

发现事务数据库中不同项之间的联系

事务数据库

  • 全局项的集合
    • 项:
    • 项集:I={各项},表中体现
    • m项可以有个非空子集
  • D一个事务的集合
    • 事务数据库:事务中的每一个对应项

关联规则及其度量

关联规则

X→Y

支持度

support(X→Y)
项集包含于的个数比总数

置信度

confidence(X→Y)
  • X被D包含的前提下,Y也被包含的比值 P(Y|X)
  • XY都包含于的事务/只包含X的事务 X并Y/X
  • 满足最小支持度阈值最小关联阈值的是强关联规则

频繁项集

一个项集≥最小支持度
一共有K项,则称频繁K-项

基本过程

  1. 找频繁项集
      • 循环I的子集c
        • 嵌套循环D中的事务t
        • 如果c是t的子集,count++
        • 判断是否大于min_sup
      • 算法复杂度:
  1. 生成强关联规则
      • 在频繁项集中找关联规则

Apriori算法

Apriori性质

A是频繁项集,则A的每一个子集都是频繁项集
  • 反单调性:如果一个项集是不频繁的,则他所有超集也一定是不频繁的
  • 主要用于剪枝

求解频繁项集

基本的Apriori算法

  1. 统计
  1. 连接
  1. 再统计…

自连接

因为总数是D,包含所有可能的项集,所以连接出来的新项集一定包含于D,把新项集作为候选集在事务集中统计即可
项相同且第项小于第new

效率

  • 项集的支持度计算
    • 循环事务,得到其中每一项子集出现的次数,若含有候选项集中的子集,则该子集加上次数
    • 事务数据库中少于K项不扫描
  • 剪枝

剪枝

若自连接产生的新项集,其中一项子集是不频繁,则一定不频繁

Apriori算法改进

频繁项集产生强关联规则

  • 频繁项集找大于最小置信度
 

SQL Server挖掘关联规则

电子商务数据挖掘的实验

Prev
数据仓库设计
Next
[第六章]决策树分类算法
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++