hadoop完全分布式搭建步骤，Hadoop 3.3.6 完全分布式环境搭建指南，从零开始构建大数据平台

欧气 2024年11月07日 02:15 0 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
搭建步骤

随着大数据时代的到来，Hadoop 作为一款强大的分布式计算框架，已经成为处理海量数据的首选工具，本文将详细阐述如何从零开始，搭建一个基于 Hadoop 3.3.6 的完全分布式环境，帮助您快速掌握大数据平台的建设与运维。

环境准备

在开始搭建 Hadoop 完全分布式环境之前，我们需要准备以下硬件和软件：

1、硬件要求：

- 至少两台物理服务器或虚拟机，推荐配置为：CPU 2核，内存4GB，硬盘100GB。

- 网络环境：确保服务器之间可以正常通信。

2、软件要求：

- 操作系统：Linux 发行版，如 Ubuntu、CentOS 等。

- Java 环境：JDK 1.8 或更高版本。

- Hadoop 3.3.6 版本。

搭建步骤

1、服务器配置

（1）设置主机名和IP地址

登录到每台服务器，编辑/etc/hosts 文件，添加以下内容：

<服务器IP地址> <服务器主机名>

（2）设置静态IP地址

以 CentOS 为例，编辑/etc/sysconfig/network-scripts/ifcfg-ens33 文件，添加以下内容：

TYPE=Ethernet
BOOTPROTO=static
DEFROUTE=yes
PEERDNS=yes
IPV4_FAILURE_FATAL=no
NAME=ens33
UUID=...
DEVICE=ens33
ONBOOT=yes
IPADDR=<服务器IP地址>
NETMASK=<子网掩码>
GATEWAY=<网关地址>

重启网络服务：

systemctl restart network

2、安装 Java 环境

（1）下载 JDK 安装包

hadoop完全分布式搭建步骤，Hadoop 3.3.6 完全分布式环境搭建指南，从零开始构建大数据平台

图片来源于网络，如有侵权联系删除

访问 Oracle 官网下载 JDK 1.8 或更高版本的安装包。

（2）安装 JDK

解压下载的 JDK 安装包到/usr/local/ 目录下，创建名为java 的文件夹：

tar -xvf jdk-8u<版本号>-linux-x64.tar.gz -C /usr/local/java

编辑/etc/profile 文件，添加以下内容：

export JAVA_HOME=/usr/local/java/jdk1.8.0_<版本号>
export PATH=$PATH:$JAVA_HOME/bin

使配置生效：

source /etc/profile

验证 JDK 是否安装成功：

java -version

3、安装 Hadoop

（1）下载 Hadoop 安装包

访问 Apache Hadoop 官网下载 Hadoop 3.3.6 版本的安装包。

（2）安装 Hadoop

解压下载的 Hadoop 安装包到/usr/local/ 目录下，创建名为hadoop 的文件夹：

tar -xvf hadoop-3.3.6.tar.gz -C /usr/local/hadoop

配置 Hadoop 环境变量：

编辑/etc/profile 文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：

source /etc/profile

4、配置 Hadoop

（1）修改hadoop-env.sh

编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh 文件，设置JAVA_HOME：

hadoop完全分布式搭建步骤，Hadoop 3.3.6 完全分布式环境搭建指南，从零开始构建大数据平台

图片来源于网络，如有侵权联系删除

export JAVA_HOME=/usr/local/java/jdk1.8.0_<版本号>

（2）修改core-site.xml

编辑/usr/local/hadoop/etc/hadoop/core-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://<主节点IP>:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/data</value>
    </property>
</configuration>

（3）修改hdfs-site.xml

编辑/usr/local/hadoop/etc/hadoop/hdfs-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/hdfs/datanode</value>
    </property>
</configuration>

（4）修改mapred-site.xml

编辑/usr/local/hadoop/etc/hadoop/mapred-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）修改yarn-site.xml

编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.host</name>
        <value><主节点IP></value>
    </property>
</configuration>

5、格式化 HDFS

在主节点上执行以下命令，格式化 HDFS：