一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++
数据仓库设计
数据仓库设计概述设计原则模式先整体在局部先局部再整体设计过程规划和需求分析建模主要工作确定主题域粒度设计数据仓库建模确定数据分割策略维表设计特征类型维表中的概念分层事实表设计特征类型聚集函数逻辑模型物理模型设计确定存储结构确定索引策略确定存储分配数据仓库部署与维护部署用户认可初始装载桌面准备初始培训维护课后题
数据仓库设计概述
设计原则
- 业务和需求为核心
- 数据为驱动
模式
先整体在局部
- 规范程度高
- 便于全局数据分析和挖掘
- 成本高、见效慢
先局部再整体
- 投资少、见效快
- 集成有很多问题
设计过程
P48
- 模型设计、物理设计、数据处理
规划和需求分析
- 规划
- 明确用户需求
- 明确数据库需求
- 主题分析
- 数据分析
建模
主要工作
确定主题域
对某个主题分析后确定其边界
粒度设计
影响数据大小和能回答的问题
数据仓库建模
确定所用模型(星形、雪花、事实星座)
- 完整性
- 事实表关键字必须建立索引
确定数据分割策略
逻辑上同一的整体数据分割成独立的物理单元
维表设计
特征
- 通常使用解析过的时间、名字或地址元素
- 不适用 业务数据库的关键字作为主键,而对每个维表额外增加一个字段作为主键识别维表中的对象
类型
- 结构维:维层次结构组成中的信息度量
- 信息维:计算字段建立
- 分区维:同一结构生成的多个维
- 分类维:
- 一致维:
- 父子维:
维表中的概念分层
对不同层次关系分层
事实表设计
特征
- 尽量减少记录长度
- 除度量外,其他字段都是维表关键字(星形时)
类型
- 原子事实表:最细粒度的事实表
- 聚集事实表:原子事实表汇总
- 合并聚集表:相同粒度的事实进行组合建模
聚集函数
逻辑模型
表名(维属性) 物理模型设计
确定存储结构
- 考虑存取时间、空间利用率、维度代价来放到不同的存储截
确定索引策略
确定存储分配
数据仓库部署与维护
部署
用户认可
- 通过相关测试,是否可用
初始装载
- 运行接口程序,将数据装到数据库
桌面准备
桌面用户装备
初始培训
维护
- 管理日常数据装入工作
- 仓库追加数据、确定数据刷新率
课后题
根据需求,事实表中可以包含多个种类的度量
Prev
OLAP概述
Next
[第五章]关联分析算法
Loading...