一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++
[第五章]关联分析算法
关联分析概述事务数据库关联规则及其度量关联规则支持度置信度频繁项集基本过程Apriori算法Apriori性质求解频繁项集基本的Apriori算法自连接效率剪枝Apriori算法改进频繁项集产生强关联规则SQL Server挖掘关联规则电子商务数据挖掘的实验
关联分析概述
发现事务数据库中不同项之间的联系
事务数据库
- 全局项的集合
- 项:
- 项集:I={各项},表中体现
- m项可以有个非空子集
- D一个事务的集合
- 事务数据库:事务中的每一个对应项
关联规则及其度量
关联规则
X→Y
支持度
support(X→Y)
项集包含于的个数比总数
置信度
confidence(X→Y)
- X被D包含的前提下,Y也被包含的比值 P(Y|X)
- XY都包含于的事务/只包含X的事务 X并Y/X
- 满足最小支持度阈值和最小关联阈值的是强关联规则
频繁项集
一个项集≥最小支持度
一共有K项,则称频繁K-项
基本过程
- 找频繁项集
- 循环I的子集c
- 嵌套循环D中的事务t
- 如果c是t的子集,count++
- 判断是否大于min_sup
- 算法复杂度:
- 生成强关联规则
- 在频繁项集中找关联规则
Apriori算法
Apriori性质
A是频繁项集,则A的每一个子集都是频繁项集
- 反单调性:如果一个项集是不频繁的,则他所有超集也一定是不频繁的
- 主要用于剪枝
求解频繁项集
基本的Apriori算法
- 统计
- 连接
- 再统计…
自连接
因为总数是D,包含所有可能的项集,所以连接出来的新项集一定包含于D,把新项集作为候选集在事务集中统计即可
与前项相同且第项小于第new 项
效率
- 项集的支持度计算
- 循环事务,得到其中每一项子集出现的次数,若含有候选项集中的子集,则该子集加上次数
- 事务数据库中少于K项不扫描
- 剪枝
剪枝
若自连接产生的新项集,其中一项子集是不频繁,则一定不频繁
Apriori算法改进
频繁项集产生强关联规则
- 频繁项集找大于最小置信度
SQL Server挖掘关联规则
电子商务数据挖掘的实验
Prev
数据仓库设计
Next
[第六章]决策树分类算法
Loading...