数据仓库设计

数据仓库设计概述

设计原则

  • 业务和需求为核心
  • 数据为驱动

模式

先整体在局部

  • 规范程度高
  • 便于全局数据分析和挖掘
  • 成本高、见效慢

先局部再整体

  • 投资少、见效快
  • 集成有很多问题

设计过程

P48
  • 模型设计、物理设计、数据处理

规划和需求分析

  • 规划
    • 明确用户需求
    • 明确数据库需求
  • 主题分析
  • 数据分析

建模

主要工作

确定主题域

对某个主题分析后确定其边界

粒度设计

影响数据大小和能回答的问题

数据仓库建模

确定所用模型(星形、雪花、事实星座)
  • 完整性
  • 事实表关键字必须建立索引

确定数据分割策略

逻辑上同一的整体数据分割成独立的物理单元

维表设计

特征

  • 通常使用解析过的时间、名字或地址元素
  • 不适用 业务数据库的关键字作为主键,而对每个维表额外增加一个字段作为主键识别维表中的对象

类型

  • 结构维:维层次结构组成中的信息度量
  • 信息维:计算字段建立
  • 分区维:同一结构生成的多个维
  • 分类维:
  • 一致维:
  • 父子维:

维表中的概念分层

对不同层次关系分层

事实表设计

特征

  • 尽量减少记录长度
  • 除度量外,其他字段都是维表关键字(星形时)

类型

  • 原子事实表:最细粒度的事实表
  • 聚集事实表:原子事实表汇总
  • 合并聚集表:相同粒度的事实进行组合建模

聚集函数

逻辑模型

表名(维属性)

物理模型设计

确定存储结构

  • 考虑存取时间、空间利用率、维度代价来放到不同的存储截

确定索引策略

确定存储分配

数据仓库部署与维护

部署

用户认可

  • 通过相关测试,是否可用

初始装载

  • 运行接口程序,将数据装到数据库

桌面准备

桌面用户装备

初始培训

维护

  • 管理日常数据装入工作
  • 仓库追加数据、确定数据刷新率

课后题


根据需求,事实表中可以包含多个种类的度量
 
 
Prev
OLAP概述
Next
[第五章]关联分析算法
Loading...
Article List
一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++