HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

（1）Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统。

（2）Hadoop MapReduce：一个分布式的离线并行计算框架。

（3）Hadoop YARN：作业调度与集群资源管理的框架。

（4）Hadoop Common：支持其他模块的工具模块。

安装配置Hadoop集群的主要步骤：

1、安装配置Hadoop

2、配置用户环境变量

3、配置Hadoop

配置core-site.xml文件

配置hdfs-site.xml文件

配置mapred-site.xml文件

配置yarn-site.xml文件

配置slaves文件

配置hadoop-env.sh文件

更多配置文件的配置信息请参见官方网站的解释。

1.1. 安装配置Hadoop

安装

在node1节点上，进入/opt/software目录（此目录是为实验提供的安装软件所在目录，如果没有请自行到官方网站下载）将hadoop解压到/opt/module目录

cd /opt/software

tar -xzf hadoop.tar.gz -C /opt/module/

配置Hadoop环境变量。

vi /etc/profile

添加如下内容：

export HADOOP_HOME=/opt/module/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置文件生效

source /etc/profile

1.2. 修改Hadoop配置文件

1.2.1. xxx-env.sh

配置hadoop-env.sh、yarn-env.sh、mapred-env.sh文件的JAVA_HOME变量。如果不设置，可能会无法正常启动集群。

cd /opt/module/hadoop/etc/hadoop

编辑hadoop-env.sh

vi hadoop-env.sh

打开配置文件，加入JAVA_HOME环境变量。

export JAVA_HOME=/opt/module/jdk1.8.0_301

编辑yarn-env.sh

vi yarn-env.sh

打开配置文件，加入JAVA_HOME环境变量。

export JAVA_HOME=/opt/module/jdk1.8.0_301

编辑mapred-env.sh

vi mapred-env.sh

打开配置文件，加入JAVA_HOME环境变量。

export JAVA_HOME=/opt/module/jdk1.8.0_301

1.2.2. core-site.xml

进入hadoop 配置文件夹。

cd $HADOOP_HOME/etc/hadoop

配置core-site.xml文件：

编辑core-site.xml文件

vi core-site.xml

修改<configuration>标签及其内容如下：

1.2.3. hdfs-site.xml

编辑 hdfs-site.xml文件

vi hdfs-site.xml

修改<configuration>标签

及其内容如下：

1.2.4. mapred-site.xml

编辑 mapred-site.xml文件

vi mapred-site.xml

修改<configuration>标签及其内容如下：

1.2.5. yarn-site.xml

编辑 yarn-site.xml文件

vi yarn-site.xml

修改<configuration>标签及其内容如下：

1.2.6. slaves

编辑 slaves文件

vi slaves

删除默认的localhost，增加2个从节点的IP地址或host主机名。

node2

node3

复制到其他节点

将配置好的Hadoop复制到其他节点对应位置上，通过scp命令发送。

scp -rq /opt/module/hadoop node2:/opt/module/

scp -rq /opt/module/hadoop node3:/opt/module/

将/etc/profile拷贝到其它所有机器上

scp /etc/profile node2:/etc/

scp /etc/profile node3:/etc/

1.3. 启动Hadoop集群并测试

格式化namenode

在node1上，格式化Hadoop的namenode

hdfs namenode -format

格式化完成后会显示“successfully formatted.”，如下图所示：

在node1节点上，启动Hadoop

start-all.sh

启动后可以看到控制台打印信息显示在

node1节点上启动了 namenode、resourcemanager两个进程，在

node2节点上启动了 datanode、nodemanager、secondarynamenode三个进程，在

node3节点上启动了 datanode、nodemanager两个进程。

使用【jps】命令，在node1节点上可以看到namenode、secondarynamenode进程

使用【jps】命令，在node2节点上可以看到

使用【jps】命令，在node3节点上可以看到

在client节点上，可以通过浏览器访问HDFS和YARN的Web监控页面，如已配置了hosts映射可直接通过机器名访问，未配置本机hosts映射需要通过IP地址访问，HDFS和YARN的Web监控页面端口如下：

HDFS：http://node1:50070

YARN：http://node1:8088

安装配置ZooKeeper

Python数据分析环境准备

Catalog

Last update: 2026-06-07

🎉NotionNext 4.9已经上线🎉

-- 感谢您的支持 ---

👏欢迎更新体验👏

操作手册

更新记录

联系我们