[第一章]大数据概述

大数据时代

2010年前后,云计算大数据、物联网为基础进入大数据
  • 三次信息化浪潮⭐
  • 技术支撑
    • 存储、计算、网络
  • 数据产生方式的变革促成大数据时代
    • 运营式系统阶段
    • 用户原创内容阶段
    • 感知式系统阶段
  • 物联网(loT):通过各种传感器收集信息,按协定传输,实现智能化的处理

大数据概念

数据量大,无法用常规软件进行捕捉、管理和处理。

大数据特性⭐

  • 数据量大
  • 快速化
  • 多样化
    • 结构化:可以用二维表表示
    • 非结构化
  • 价值密度低

大数据影响

科学研究

  • 实验科学
  • 理论科学
  • 计算科学
  • 数据密集型科学

思维方式

  • 全样而非抽样
  • 效率而非精确
  • 相关而非因果

社会发展

  • 提供决策方式

就业市场

  • 提供职业

人才培养

  • 高校、科研

大数据应用

  • 各行各业

大数据关键技术

数据采集

ETL工具

数据存储和管理

  • 分布式存储

数据处理与分析

  • 分布式处理

数据隐私和安全

大数据计算模式

  • 批处理(大规模数据集并行运算)
    • 实时处理
    • 交互式计算
  • 流计算
    • 针对流数据的数据计算
  • 图计算
    • 大规模图形结构数据
  • 查询分析计算
    • 大规模数据存储管理和查询分析

大数据产业

  • 基础设施
  • 数据源层
  • 数据管理层
    • 数据抽取、转换、存储、管理
  • 数据分析层
    • 分布式计算、数据挖掘、统计分析
  • 数据平台层
    • 提供数据分享平台
  • 数据应用层

大数据与云计算、物联网⭐

云计算:可伸缩的、廉价的分布式计算能力

分类

  • 公共云、私有云、混合云
  • Saas软件级服务、Paas平台级服务、Laas基础设施级服务

大数据关键技术

HDFS
MapReduce

云计算关键技术

  • 虚拟化
  • 分布式存储
  • 分布式计算
  • 多租户
云计算数据中心
云计算应用、产业

物联网

通过信息传感设备,按约定的协议,把任何物品与互联网相连,进行信息交换和通信,实现智能化识别、定位、跟踪、监控和管理(服务)的网络

特征

  • 全面感知
  • 可靠传递
  • 智能处理

关键技术

  • 识别和感知技术
  • 网络与通信技术
  • 数据挖掘与融合技术

分层

  • 感知层
  • 网络层
  • 处理层
  • 应用层

大数据云计算物联网三者关系

  • 云计算为大数据提供了技术基础,大数据为云计算提供了用武之地
  • 云计算为物联网提供了海量数据存储能力,物联网为云计算技术提供了广阔的应用空间
  • 物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑

代表性的大数据技术

Hadoop

  • HDFS 分布式文件系统
  • MapReduce 分布式计算→批处理、并行
  • Impala 实现实时交互式查询分析
  • spark
  • Flink
  • Beam
 
Prev
基础语法
Next
[第二章]大数据处理架构Hadoop
Loading...