hadoop完全分布式部署，hadoop3.3.6完全分布式搭建，Hadoop 3.3.6 完全分布式环境搭建详解，从准备到部署的全方位指南

欧气 2024年10月10日 06:51 0 0

本文详细介绍了Hadoop 3.3.6完全分布式环境的搭建过程，包括从准备到部署的全方位指南，帮助读者轻松掌握Hadoop完全分布式部署的技巧。

本文目录导读：

图片来源于网络，如有侵权联系删除

准备工作
环境配置
集群搭建
服务启动
测试验证

随着大数据时代的到来，Hadoop作为一款开源的分布式计算框架，已经成为处理海量数据的首选工具，本文将详细介绍如何在Linux环境下搭建Hadoop 3.3.6的完全分布式环境，包括准备工作、环境配置、集群搭建、服务启动以及测试验证等步骤，旨在帮助读者全面掌握Hadoop完全分布式部署的整个过程。

准备工作

1、硬件环境

- 至少三台服务器，配置要求：CPU 2核以上，内存4GB以上，硬盘100GB以上；

- 网络环境：所有服务器之间能够相互通信，并确保网络延迟和丢包率在可接受范围内。

2、软件环境

- 操作系统：Linux系统，如CentOS 7、Ubuntu 18.04等；

- Java环境：JDK 1.8以上；

- SSH无密码登录：确保三台服务器之间可以通过SSH无密码登录。

环境配置

1、安装Java环境

- 下载JDK安装包，解压到指定目录，如/usr/local/java；

- 修改环境变量，编辑~/.bash_profile文件，添加以下内容：

export JAVA_HOME=/usr/local/java
export PATH=$JAVA_HOME/bin:$PATH

- 使环境变量生效，执行source ~/.bash_profile命令。

2、安装SSH服务

- 在三台服务器上安装SSH服务，执行以下命令：

sudo yum install openssh-server

- 启动SSH服务，执行以下命令：

hadoop完全分布式部署，hadoop3.3.6完全分布式搭建，Hadoop 3.3.6 完全分布式环境搭建详解，从准备到部署的全方位指南

图片来源于网络，如有侵权联系删除

sudo systemctl start sshd

- 设置SSH服务开机自启，执行以下命令：

sudo systemctl enable sshd

3、配置SSH无密码登录

- 在三台服务器上生成SSH密钥对，执行以下命令：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

- 将公钥复制到其他两台服务器，执行以下命令：

ssh-copy-id -i ~/.ssh/id_rsa.pub root@<其他服务器IP>

- 在所有服务器上执行上述命令，确保无密码登录。

集群搭建

1、创建集群目录

- 在三台服务器上创建Hadoop集群目录，如/hadoop-3.3.6，并将Hadoop安装包解压到该目录。

2、配置集群

- 修改hadoop配置文件，包括hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml。

- 编辑hadoop-env.sh文件，设置JDK路径：

export JAVA_HOME=/usr/local/java

- 编辑core-site.xml文件，配置以下内容：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://namenode:8020</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/hadoop-3.3.6/tmp</value>
  </property>
</configuration>

- 编辑hdfs-site.xml文件，配置以下内容：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/hadoop-3.3.6/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/hadoop-3.3.6/hdfs/datanode</value>
  </property>
</configuration>

- 编辑yarn-site.xml文件，配置以下内容：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>namenode</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

- 编辑mapred-site.xml文件，配置以下内容：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

服务启动

1、格式化NameNode

hadoop完全分布式部署，hadoop3.3.6完全分布式搭建，Hadoop 3.3.6 完全分布式环境搭建详解，从准备到部署的全方位指南

图片来源于网络，如有侵权联系删除

- 在NameNode上执行以下命令，格式化HDFS：

hdfs namenode -format

2、启动HDFS服务

- 在NameNode和DataNode上分别执行以下命令，启动HDFS服务：

start-dfs.sh

3、启动YARN服务

- 在ResourceManager和NodeManager上分别执行以下命令，启动YARN服务：

start-yarn.sh

测试验证

1、测试HDFS

- 在客户端执行以下命令，创建一个测试文件：

hdfs dfs -put /etc/passwd testfile

- 查看文件是否已上传：

hdfs dfs -ls testfile

2、测试YARN

- 在客户端执行以下命令，运行一个简单的MapReduce程序：

hadoop jar /usr/local/hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount testfile /wordcount/output

- 查看输出结果：

hdfs dfs -cat /wordcount/output/part-r-00000

至此，Hadoop 3.3.6完全分布式环境搭建完成，在实际应用中，还需要根据具体需求对集群进行优化和调整，希望本文能帮助您顺利搭建Hadoop完全分布式环境。