hadoop分布式集群搭建完整教程，Hadoop分布式集群搭建实战教程，从入门到精通

欧气 2024年10月27日 22:43 0 0

本文目录导读：

环境准备
Hadoop版本选择
集群架构
集群搭建步骤
集群测试

随着大数据时代的到来，Hadoop作为一款分布式存储和计算框架，已经成为了处理海量数据的重要工具，本文将为您详细介绍Hadoop分布式集群的搭建过程，让您从入门到精通，轻松应对大数据挑战。

环境准备

1、操作系统：推荐使用CentOS 7.x或Ubuntu 16.04等Linux系统。

hadoop分布式集群搭建完整教程，Hadoop分布式集群搭建实战教程，从入门到精通

图片来源于网络，如有侵权联系删除

2、Java环境：Hadoop依赖于Java运行，请确保Java版本为1.8。

3、网络环境：集群中所有节点之间需要能够相互通信。

Hadoop版本选择

Hadoop社区主要分为两个分支：Apache Hadoop和Cloudera Hadoop，Apache Hadoop是开源的，Cloudera Hadoop则是由Cloudera公司维护的商业版本，本文以Apache Hadoop 3.3.4版本为例进行讲解。

集群架构

Hadoop集群主要由以下几个组件组成：

1、NameNode：负责存储HDFS文件系统的元数据，如文件名、目录结构、文件大小等。

2、DataNode：负责存储实际的数据块，响应客户端的读写请求。

3、ResourceManager：负责管理YARN集群中的资源，包括内存和CPU。

4、NodeManager：负责管理每个节点上的资源，并执行ResourceManager分配的任务。

集群搭建步骤

1、安装JDK

在所有节点上安装JDK，并设置环境变量。

hadoop分布式集群搭建完整教程，Hadoop分布式集群搭建实战教程，从入门到精通

图片来源于网络，如有侵权联系删除

下载JDK安装包
wget https://download.oracle.com/java/17/latest/jdk-17_linux-x64_bin.tar.gz
解压安装包
tar -zxvf jdk-17_linux-x64_bin.tar.gz -C /usr/local
设置环境变量
echo 'export JAVA_HOME=/usr/local/jdk-17' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
source /etc/profile

2、安装Hadoop

在所有节点上安装Hadoop，并设置环境变量。

下载Hadoop安装包
wget https://www.apache.org/dyn/closer.cgi?path=/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
解压安装包
tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local
设置环境变量
echo 'export HADOOP_HOME=/usr/local/hadoop-3.3.4' >> /etc/profile
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> /etc/profile
source /etc/profile

3、配置集群

（1）配置集群文件

在Hadoop的etc/hadoop目录下，配置以下文件：

- core-site.xml：配置Hadoop的运行参数，如HDFS的存储路径、Hadoop的临时目录等。

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/data/tmp</value>
    </property>
</configuration>

- hdfs-site.xml：配置HDFS的运行参数，如副本因子、存储路径等。

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop-3.3.4/data/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop-3.3.4/data/hdfs/data</value>
    </property>
</configuration>

- yarn-site.xml：配置YARN的运行参数，如资源管理器的地址、节点管理器的地址等。

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

（2）配置SSH免密登录

在所有节点上生成SSH密钥对，并将公钥复制到其他节点。

hadoop分布式集群搭建完整教程，Hadoop分布式集群搭建实战教程，从入门到精通

图片来源于网络，如有侵权联系删除

生成SSH密钥对
ssh-keygen -t rsa -P '' -C 'your_email@example.com'
将公钥复制到其他节点
ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave2

4、格式化NameNode

在NameNode节点上，执行以下命令格式化HDFS：