hadoop完全分布式搭建步骤

欧气 2024年12月22日 23:55 0 0

Hadoop 3.3.6完全分布式环境搭建详解：从入门到精通

一、前言

随着大数据时代的到来，Hadoop作为一款分布式计算框架，已经成为处理海量数据的重要工具，本文将详细讲解如何搭建Hadoop 3.3.6完全分布式环境，帮助读者从入门到精通。

二、环境准备

1. 操作系统：Linux（推荐CentOS 7）

hadoop完全分布式搭建步骤

图片来源于网络，如有侵权联系删除

2. Java：Hadoop 3.3.6要求Java版本为1.8及以上，本文以Java 1.8为例。

3. SSH：用于远程登录和管理集群。

4. Hadoop：下载Hadoop 3.3.6安装包。

三、集群规划

1. 主机名：hadoop01（NameNode）、hadoop02（Secondary NameNode）、hadoop03（DataNode）

2. IP地址：192.168.1.101（hadoop01）、192.168.1.102（hadoop02）、192.168.1.103（hadoop03）

3. 数据存储路径：/data/hadoop

四、安装Hadoop

1. 解压Hadoop安装包：tar -zxvf hadoop-3.3.6.tar.gz -C /data/hadoop

2. 配置环境变量：在~/.bash_profile文件中添加以下内容：

```

export HADOOP_HOME=/data/hadoop/hadoop-3.3.6

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

3. 使环境变量生效：source ~/.bash_profile

4. 配置Hadoop配置文件：

（1）在hadoop01（NameNode）上配置：

a. 修改hadoop-env.sh文件，设置Java环境：

```

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.b10-0.el7_8.x86_64

```

b. 修改core-site.xml文件，设置Hadoop运行时的文件系统URI：

```

fs.defaultFShdfs://hadoop01:8020

```

c. 修改hdfs-site.xml文件，设置数据存储路径：

```

dfs.replication3dfs.namenode.name.dir/data/hadoop/hadoop-3.3.6/hdfs/namenodedfs.datanode.data.dir/data/hadoop/hadoop-3.3.6/hdfs/datanode

```

d. 修改slaves文件，添加DataNode节点：

```

hadoop02

hadoop完全分布式搭建步骤

图片来源于网络，如有侵权联系删除

hadoop03

```

（2）在hadoop02（Secondary NameNode）上配置：

a. 修改hadoop-env.sh文件，设置Java环境：

```

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.b10-0.el7_8.x86_64

```

b. 修改core-site.xml文件，设置Hadoop运行时的文件系统URI：

```

fs.defaultFShdfs://hadoop01:8020

```

c. 修改hdfs-site.xml文件，设置Secondary NameNode运行路径：

```

dfs.namenode.checkpoint.dir/data/hadoop/hadoop-3.3.6/hdfs/checkpoint

```

（3）在hadoop03（DataNode）上配置：

a. 修改hadoop-env.sh文件，设置Java环境：

```

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.b10-0.el7_8.x86_64

```

b. 修改core-site.xml文件，设置Hadoop运行时的文件系统URI：

```

fs.defaultFShdfs://hadoop01:8020

```

c. 修改hdfs-site.xml文件，设置数据存储路径：

```

dfs.replication3dfs.datanode.data.dir/data/hadoop/hadoop-3.3.6/hdfs/datanode

```

五、格式化NameNode

在hadoop01（NameNode）上执行以下命令：

```

hdfs namenode -format

```

六、启动Hadoop集群

hadoop完全分布式搭建步骤

图片来源于网络，如有侵权联系删除

1. 在hadoop01（NameNode）上启动HDFS：

```

start-dfs.sh

```

2. 在hadoop02（Secondary NameNode）上启动Secondary NameNode：

```

start-secondarynamenode.sh

```

3. 在hadoop03（DataNode）上启动DataNode：

```

start-dfs.sh

```

4. 在hadoop01（NameNode）上启动YARN：

```

start-yarn.sh

```

5. 在hadoop01（NameNode）上启动HistoryServer：

```

mr-jobhistory-daemon.sh start historyserver

```

七、验证集群

1. 在浏览器中访问HDFS Web界面：http://hadoop01:50070

2. 在浏览器中访问YARN Web界面：http://hadoop01:8088

3. 在终端执行以下命令，查看集群状态：

```

jps

```

八、总结

本文详细讲解了Hadoop 3.3.6完全分布式环境的搭建过程，包括环境准备、集群规划、安装Hadoop、配置Hadoop配置文件、格式化NameNode、启动Hadoop集群和验证集群，希望本文能帮助读者快速搭建Hadoop集群，为后续的大数据处理工作打下基础。

标签： #hadoop3.3.6完全分布式搭建