深入浅出，完全分布式Hadoop集群搭建全攻略

欧气 2024年12月18日 07:20 0 0

本文目录导读：

搭建环境
集群规划
搭建步骤

随着大数据时代的到来，Hadoop作为一款开源的分布式计算框架，已经成为了处理海量数据的重要工具，本文将详细讲解如何搭建一个完全分布式Hadoop集群，帮助读者轻松掌握Hadoop集群的搭建过程。

深入浅出，完全分布式Hadoop集群搭建全攻略

图片来源于网络，如有侵权联系删除

搭建环境

1、操作系统：CentOS 7

2、Java环境：JDK 1.8

3、Hadoop版本：Hadoop 3.2.0

集群规划

假设我们有3台服务器，分别命名为node1、node2、node3，作为集群的节点，以下是集群规划：

1、node1：作为NameNode，存储元数据

2、node2：作为DataNode，存储数据

3、node3：作为Secondary NameNode，备份NameNode的元数据

搭建步骤

1、安装JDK

在每台服务器上安装JDK 1.8，配置环境变量：

修改环境变量文件
echo "export JAVA_HOME=/usr/local/jdk1.8.0_241" >> /etc/profile
echo "export PATH=$PATH:$JAVA_HOME/bin" >> /etc/profile
echo "export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar" >> /etc/profile
使环境变量生效
source /etc/profile

2、安装Hadoop

深入浅出，完全分布式Hadoop集群搭建全攻略

图片来源于网络，如有侵权联系删除

在每台服务器上解压Hadoop 3.2.0安装包，并配置环境变量：

修改环境变量文件
echo "export HADOOP_HOME=/usr/local/hadoop-3.2.0" >> /etc/profile
echo "export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin" >> /etc/profile
使环境变量生效
source /etc/profile

3、配置集群

（1）配置Hadoop核心配置文件

在每台服务器上的$HADOOP_HOME/etc/hadoop目录下，修改core-site.xml文件：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop-3.2.0/tmp</value>
  </property>
</configuration>

（2）配置HDFS配置文件

在每台服务器上的$HADOOP_HOME/etc/hadoop目录下，修改hdfs-site.xml文件：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop-3.2.0/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop-3.2.0/hdfs/datanode</value>
  </property>
</configuration>

（3）配置YARN配置文件

在每台服务器上的$HADOOP_HOME/etc/hadoop目录下，修改yarn-site.xml文件：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node1</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

4、格式化NameNode

在node1服务器上执行以下命令：

深入浅出，完全分布式Hadoop集群搭建全攻略

图片来源于网络，如有侵权联系删除