hadoop完全分布式环境搭建，深入解析Hadoop完全分布式集群搭建步骤与细节

欧气 2024年11月07日 14:15 0 0

本文目录导读：

Hadoop完全分布式集群概述
搭建Hadoop完全分布式集群的准备工作
Hadoop完全分布式集群搭建步骤

Hadoop完全分布式集群概述

Hadoop是一种分布式计算框架，主要用于处理大规模数据集，Hadoop完全分布式集群由多个节点组成，包括NameNode、DataNode、Secondary NameNode和ResourceManager等，通过分布式文件系统（HDFS）和资源管理器（YARN）实现数据的存储和计算，本文将详细解析Hadoop完全分布式集群搭建步骤与细节。

搭建Hadoop完全分布式集群的准备工作

1、硬件环境

（1）服务器：建议使用4核CPU、16GB内存、1TB硬盘的服务器。

（2）操作系统：CentOS 7.0及以上版本。

hadoop完全分布式环境搭建，深入解析Hadoop完全分布式集群搭建步骤与细节

图片来源于网络，如有侵权联系删除

（3）网络环境：保证各节点之间能够正常通信。

2、软件环境

（1）Java环境：安装Java 8或以上版本。

（2）Hadoop版本：本文以Hadoop 3.3.4为例。

（3）SSH免密登录：在各节点之间配置SSH免密登录，方便后续操作。

Hadoop完全分布式集群搭建步骤

1、配置主机名与IP地址

（1）编辑每个节点的/etc/hosts文件，添加其他节点的IP地址和主机名。

（2）在/etc/sysconfig/network文件中修改主机名。

（3）重启网络服务，使配置生效。

2、配置SSH免密登录

（1）在每个节点上生成密钥对：ssh-keygen -t rsa。

（2）将公钥复制到其他节点：ssh-copy-id root@<其他节点IP>。

3、配置防火墙

（1）关闭防火墙：systemctl stop firewalld。

hadoop完全分布式环境搭建，深入解析Hadoop完全分布式集群搭建步骤与细节

图片来源于网络，如有侵权联系删除

（2）设置开机自启：systemctl disable firewalld。

4、配置内核参数

（1）编辑/etc/sysctl.conf文件，添加以下内容：

vm.swappiness = 0
net.core.somaxconn = 65535

（2）使配置生效：sysctl -p。

5、安装Java环境

（1）下载Java安装包：wget http://download.oracle.com/otn-pub/java/jdk/8u171-b11/2f38c3b165be4555a1faa389f7283b53/jdk-8u171-linux-x64.tar.gz。

（2）解压安装包：tar -zxf jdk-8u171-linux-x64.tar.gz -C /usr/local/。

（3）配置环境变量：vi /etc/profile，添加以下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_171
export PATH=$PATH:$JAVA_HOME/bin

（4）使配置生效：source /etc/profile。

6、安装Hadoop

（1）下载Hadoop安装包：wget http://www.apache.org/dyn/closer.cgi?path=/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz。

（2）解压安装包：tar -zxf hadoop-3.3.4.tar.gz -C /usr/local/。

（3）配置环境变量：vi /etc/profile，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（4）使配置生效：source /etc/profile。

hadoop完全分布式环境搭建，深入解析Hadoop完全分布式集群搭建步骤与细节

图片来源于网络，如有侵权联系删除

7、配置Hadoop

（1）修改/usr/local/hadoop-3.3.4/etc/hadoop/hadoop-env.sh文件，设置Java环境：

export JAVA_HOME=/usr/local/jdk1.8.0_171

（2）修改/usr/local/hadoop-3.3.4/etc/hadoop/core-site.xml文件，配置HDFS存储路径：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://master:8020</value>
</property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/local/hadoop-3.3.4/tmp</value>
</property>

（3）修改/usr/local/hadoop-3.3.4/etc/hadoop/hdfs-site.xml文件，配置HDFS参数：

<property>
  <name>dfs.replication</name>
  <value>3</value>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/usr/local/hadoop-3.3.4/hdfs/namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/usr/local/hadoop-3.3.4/hdfs/datanode</value>
</property>

（4）修改/usr/local/hadoop-3.3.4/etc/hadoop/yarn-site.xml文件，配置YARN参数：

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

（5）修改/usr/local/hadoop-3.3.4/etc/hadoop/mapred-site.xml文件，配置MapReduce参数：

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

8、格式化NameNode

在master节点上执行以下命令：

hdfs namenode -format

9、启动Hadoop服务

（1）在master节点上启动HDFS服务：

start-dfs.sh

（2）在master节点上启动YARN服务：

start-yarn.sh

（3）在master节点上启动HistoryServer：

mr-jobhistory-daemon.sh start historyserver

通过以上步骤，成功搭建了Hadoop完全分布式集群，在实际应用中，可以根据需求对集群进行优化和扩展，希望本文对您有所帮助。

标签： #hadoop完全分布式集群搭建截图