一个NotionNext搭建的博客
数据库系统概论
大数据原理与应用
javaWeb应用开发基础教程
python
毕业设计
大数据技术综合应用
实训-航空数据系统
java面向对象程序设计
数据结构
算法分析与设计
SPARK
Python爬虫大数据采集与挖掘
云计算
概率论与数理统计
数字逻辑
计算机网络
计算机组成原理
linux
操作系统
人工智能导论
数据仓库与数据挖掘
数据可视化
大数据安全与隐私保护
c语言
C++
安装配置Hadoop集群
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
(1)Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统。
(2)Hadoop MapReduce:一个分布式的离线并行计算框架。
(3)Hadoop YARN:作业调度与集群资源管理的框架。
(4)Hadoop Common:支持其他模块的工具模块。
安装配置Hadoop集群的主要步骤:
1、安装配置Hadoop
2、配置用户环境变量
3、配置Hadoop
配置core-site.xml文件
配置hdfs-site.xml文件
配置mapred-site.xml文件
配置yarn-site.xml文件
配置slaves文件
配置hadoop-env.sh文件
更多配置文件的配置信息请参见官方网站的解释。
1.1. 安装配置Hadoop
- 安装
在node1节点上,进入/opt/software目录(此目录是为实验提供的安装软件所在目录,如果没有请自行到官方网站下载)将hadoop解压到/opt/module目录
cd /opt/softwaretar -xzf hadoop.tar.gz -C /opt/module/- 配置Hadoop环境变量。
vi /etc/profile添加如下内容:
export HADOOP_HOME=/opt/module/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin- 配置文件生效
source /etc/profile1.2. 修改Hadoop配置文件
1.2.1. xxx-env.sh
配置hadoop-env.sh、yarn-env.sh、mapred-env.sh文件的JAVA_HOME变量。如果不设置,可能会无法正常启动集群。
cd /opt/module/hadoop/etc/hadoop- 编辑hadoop-env.sh
vi hadoop-env.sh打开配置文件,加入JAVA_HOME环境变量。
export JAVA_HOME=/opt/module/jdk1.8.0_301- 编辑yarn-env.sh
vi yarn-env.sh打开配置文件,加入JAVA_HOME环境变量。
export JAVA_HOME=/opt/module/jdk1.8.0_301- 编辑mapred-env.sh
vi mapred-env.sh打开配置文件,加入JAVA_HOME环境变量。
export JAVA_HOME=/opt/module/jdk1.8.0_3011.2.2. core-site.xml
- 进入hadoop 配置文件夹。
cd $HADOOP_HOME/etc/hadoop配置core-site.xml文件:
- 编辑core-site.xml文件
vi core-site.xml修改<configuration>标签及其内容如下:
1.2.3. hdfs-site.xml
- 编辑 hdfs-site.xml文件
vi hdfs-site.xml- 修改<configuration>标签
及其内容如下:
1.2.4. mapred-site.xml
- 编辑 mapred-site.xml文件
vi mapred-site.xml修改<configuration>标签及其内容如下:
1.2.5. yarn-site.xml
- 编辑 yarn-site.xml文件
vi yarn-site.xml修改<configuration>标签及其内容如下:
1.2.6. slaves
- 编辑 slaves文件
vi slaves删除默认的localhost,增加2个从节点的IP地址或host主机名。
node2node3- 复制到其他节点
将配置好的Hadoop复制到其他节点对应位置上,通过scp命令发送。
scp -rq /opt/module/hadoop node2:/opt/module/scp -rq /opt/module/hadoop node3:/opt/module/将/etc/profile拷贝到其它所有机器上
scp /etc/profile node2:/etc/scp /etc/profile node3:/etc/1.3. 启动Hadoop集群并测试
- 格式化namenode
在node1上,格式化Hadoop的namenode
hdfs namenode -format格式化完成后会显示“successfully formatted.”,如下图所示:
- 在node1节点上,启动Hadoop
start-all.sh- 启动后可以看到控制台打印信息显示在
node1节点上启动了 namenode、resourcemanager两个进程,在
node2节点上启动了 datanode、nodemanager、secondarynamenode三个进程,在
node3节点上启动了 datanode、nodemanager两个进程。
使用【jps】命令,在node1节点上可以看到namenode、secondarynamenode进程
使用【jps】命令,在node2节点上可以看到
使用【jps】命令,在node3节点上可以看到
在client节点上,可以通过浏览器访问HDFS和YARN的Web监控页面,如已配置了hosts映射可直接通过机器名访问,未配置本机hosts映射需要通过IP地址访问,HDFS和YARN的Web监控页面端口如下:
HDFS:http://node1:50070
YARN:http://node1:8088
Prev
安装配置ZooKeeper
Next
Python数据分析环境准备
Loading...