Hadoop 3.3.6完全分布式集群搭建指南，从入门到实践，hadoop完全分布式搭建步骤

欧气 2024年12月11日 10:16 1 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
集群规划
安装Hadoop
格式化NameNode
启动集群
验证集群

随着大数据时代的到来，Hadoop作为一款分布式存储和处理框架，已经成为大数据领域的基石，本文将详细介绍Hadoop 3.3.6完全分布式集群的搭建过程，帮助您从入门到实践，轻松掌握Hadoop集群部署。

环境准备

在搭建Hadoop 3.3.6完全分布式集群之前，我们需要准备以下环境：

1、操作系统：推荐使用CentOS 7.6，其他Linux发行版也可。

2、Java环境：Hadoop 3.3.6需要Java 8以上版本，推荐使用OpenJDK。

3、网络环境：确保集群中的节点之间可以正常通信。

4、软件包：下载Hadoop 3.3.6安装包，通常为tar.gz格式。

集群规划

在搭建集群之前，我们需要对集群进行规划，包括节点分配、角色分配等。

1、节点分配：根据实际需求，确定集群中包含多少个节点，本文以3个节点为例，分别命名为node01、node02和node03。

2、角色分配：Hadoop 3.3.6集群包含以下角色：

（1）NameNode：负责存储元数据，管理文件系统命名空间。

（2）DataNode：负责存储实际的数据块，响应客户端的读写请求。

（3）Secondary NameNode：定期备份NameNode的元数据，减轻NameNode的负载。

Hadoop 3.3.6完全分布式集群搭建指南，从入门到实践，hadoop完全分布式搭建步骤

图片来源于网络，如有侵权联系删除

安装Hadoop

1、解压Hadoop安装包，将其放置到指定目录，如/hadoop-3.3.6。

2、配置环境变量：

vi ~/.bashrc

在文件末尾添加以下内容：

export HADOOP_HOME=/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存并退出编辑器，执行以下命令使环境变量生效：

source ~/.bashrc

3、配置Hadoop：

（1）配置hadoop-env.sh：

vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh

在文件中设置Java Home：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.272.x86_64

（2）配置core-site.xml：

vi $HADOOP_HOME/etc/hadoop/core-site.xml

添加以下内容：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node01:8020</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop-3.3.6/data/tmp</value>
  </property>
</configuration>

（3）配置hdfs-site.xml：

vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml

添加以下内容：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop-3.3.6/data/nameNode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop-3.3.6/data/dataNode</value>
  </property>
</configuration>

（4）配置yarn-site.xml：

Hadoop 3.3.6完全分布式集群搭建指南，从入门到实践，hadoop完全分布式搭建步骤

图片来源于网络，如有侵权联系删除

vi $HADOOP_HOME/etc/hadoop/yarn-site.xml

添加以下内容：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node01</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>