[第一章]大数据概述
大数据时代大数据概念大数据特性⭐大数据影响科学研究思维方式社会发展就业市场人才培养大数据应用大数据关键技术数据采集数据存储和管理数据处理与分析数据隐私和安全大数据计算模式大数据产业大数据与云计算、物联网⭐分类大数据关键技术云计算关键技术物联网特征关键技术分层大数据云计算物联网三者关系代表性的大数据技术Hadoop
大数据时代
2010年前后,云计算大数据、物联网为基础进入大数据
- 三次信息化浪潮⭐
- 技术支撑
- 存储、计算、网络
- 数据产生方式的变革促成大数据时代
- 运营式系统阶段
- 用户原创内容阶段
- 感知式系统阶段
- 物联网(loT):通过各种传感器收集信息,按协定传输,实现智能化的处理
大数据概念
数据量大,无法用常规软件进行捕捉、管理和处理。
大数据特性⭐
- 数据量大
- 快速化
- 多样化
- 结构化:可以用二维表表示
- 非结构化
- 价值密度低
大数据影响
科学研究
- 实验科学
- 理论科学
- 计算科学
- 数据密集型科学
思维方式
- 全样而非抽样
- 效率而非精确
- 相关而非因果
社会发展
- 提供决策方式
就业市场
- 提供职业
人才培养
- 高校、科研
大数据应用
- 各行各业
大数据关键技术
数据采集
ETL工具
数据存储和管理
- 分布式存储
数据处理与分析
- 分布式处理
数据隐私和安全
大数据计算模式
- 批处理(大规模数据集并行运算)
- 实时处理
- 交互式计算
- 流计算
- 针对流数据的数据计算
- 图计算
- 大规模图形结构数据
- 查询分析计算
- 大规模数据存储管理和查询分析
大数据产业
- 基础设施
- 数据源层
- 数据管理层
- 数据抽取、转换、存储、管理
- 数据分析层
- 分布式计算、数据挖掘、统计分析
- 数据平台层
- 提供数据分享平台
- 数据应用层
大数据与云计算、物联网⭐
云计算:可伸缩的、廉价的分布式计算能力
分类
- 公共云、私有云、混合云
- Saas软件级服务、Paas平台级服务、Laas基础设施级服务
大数据关键技术
HDFS
MapReduce
云计算关键技术
- 虚拟化
- 分布式存储
- 分布式计算
- 多租户
云计算数据中心
云计算应用、产业
物联网
通过信息传感设备,按约定的协议,把任何物品与互联网相连,进行信息交换和通信,实现智能化识别、定位、跟踪、监控和管理(服务)的网络
特征
- 全面感知
- 可靠传递
- 智能处理
关键技术
- 识别和感知技术
- 网络与通信技术
- 数据挖掘与融合技术
分层
- 感知层
- 网络层
- 处理层
- 应用层
大数据云计算物联网三者关系
- 云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
- 云计算为物联网提供了海量数据存储能力,物联网为云计算技术提供了广阔的应用空间
- 物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑
代表性的大数据技术
Hadoop
- HDFS 分布式文件系统
- MapReduce 分布式计算→批处理、并行
- Impala 实现实时交互式查询分析
- spark
- Flink
- Beam
Prev
基础语法
Next
[第二章]大数据处理架构Hadoop
Loading...