hadoop完全分布的搭建，hadoop完全分布式集群搭建截图

欧气 2024年10月01日 11:58 2 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
Hadoop安装包获取与解压
配置文件修改
配置集群节点信息（slaves文件）
配置SSH免密码登录
启动Hadoop集群

《Hadoop完全分布式集群搭建全流程解析与实践截图》

Hadoop作为大数据处理领域的核心框架，搭建完全分布式集群是深入学习和应用Hadoop的重要基础，我们将详细介绍Hadoop完全分布式集群的搭建过程，并在关键步骤附上截图以辅助理解。

环境准备

（一）硬件要求

1、至少三台服务器（在实验环境下，也可以使用虚拟机模拟），配置要求根据实际数据处理规模而定，但建议每台机器具有足够的内存（如4GB以上）和磁盘空间（如50GB以上）。

2、服务器之间需要能够互相通信，可以通过设置静态IP地址并确保网络连接正常。

（二）软件要求

1、操作系统：选择Linux系统，如CentOS 7或Ubuntu，这里以CentOS 7为例。

2、安装Java环境，因为Hadoop是基于Java开发的，确保在所有节点上安装JDK，并且配置好环境变量，在CentOS 7上，可以通过yum安装OpenJDK，命令为：yum install -y java - 1.8.0 - openjdk - devel，然后在/etc/profile文件中配置JAVA_HOME环境变量，如下：

export JAVA_HOME=/usr/lib/jvm/java - 1.8.0 - openjdk - 1.8.0.275.b01 - 1.el7_9.x86_64
export PATH=$PATH:$JAVA_HOME/bin

修改完成后，执行source /etc/profile使配置生效。

Hadoop安装包获取与解压

1、从Hadoop官方网站（https://hadoop.apache.org/releases.html）下载合适版本的Hadoop安装包，下载hadoop - 3.3.0 - bin - hadoop.tar.gz。

2、在所有节点上创建一个专门的目录用于存放Hadoop，如/usr/local/hadoop，然后将下载的安装包上传到该目录下，并解压，命令为：tar -zxvf hadoop - 3.3.0 - bin - hadoop.tar.gz。

hadoop完全分布的搭建，hadoop完全分布式集群搭建截图

图片来源于网络，如有侵权联系删除

配置文件修改

（一）核心配置文件（core - site.xml）

1、在$HADOOP_HOME/etc/hadoop目录下找到core - site.xml文件。

2、编辑该文件，添加以下配置内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

这里的master是我们指定的Hadoop集群中的主节点名称，可以根据实际情况修改。hadoop.tmp.dir是Hadoop临时文件的存放目录。

（二）HDFS配置文件（hdfs - site.xml）

1、同样在$HADOOP_HOME/etc/hadoop目录下找到hdfs - site.xml文件。

2、编辑内容如下：

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/hdfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/hdfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

dfs.replication的值表示数据块的副本数量，这里设置为3，因为我们有至少三个节点的集群。

（三）YARN配置文件（yarn - site.xml）

1、在yarn - site.xml文件中添加以下配置：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux - services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

（四）MapReduce配置文件（mapred - site.xml）

hadoop完全分布的搭建，hadoop完全分布式集群搭建截图

图片来源于网络，如有侵权联系删除

1、从模板文件mapred - site.xml.template复制创建mapred - site.xml文件，命令为：cp mapred - site.xml.template mapred - site.xml。

2、编辑mapred - site.xml文件，添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置集群节点信息（slaves文件）

1、在$HADOOP_HOME/etc/hadoop目录下找到slaves文件。

2、在文件中列出所有的数据节点（从节点）的主机名或者IP地址，每行一个，

slave1
slave2

配置SSH免密码登录

1、在主节点上生成SSH密钥对，命令为：ssh - keygen - t rsa，一路回车，采用默认配置即可。

2、将公钥复制到所有从节点上，命令为：ssh - copy - id slave1，ssh - copy - id slave2等，分别对应每个从节点，这样就可以实现主节点到从节点的免密码登录，方便Hadoop集群的管理和操作。

启动Hadoop集群

1、在主节点上，首先格式化HDFS文件系统，命令为：hdfs namenode - format，这个操作只需在首次启动集群或者需要重新格式化时执行，格式化成功后会显示相关信息，如创建了哪些文件和目录等。

2、启动Hadoop集群，命令为：start - all.sh，这个脚本会依次启动HDFS的NameNode、DataNode以及YARN的ResourceManager和NodeManager等组件。

3、验证集群是否启动成功，可以通过查看相关进程是否正在运行，在主节点上使用jps命令，可以看到NameNode、ResourceManager等进程；在从节点上使用jps命令，可以看到DataNode、NodeManager等进程，也可以通过访问Hadoop的Web界面来查看集群状态，访问http://master:9870（HDFS的Web界面）和http://master:8088（YARN的Web界面），如果能够正常显示相关页面并且显示集群的正确信息，如节点数量、存储使用情况等，则说明集群搭建成功。

通过以上步骤，我们成功搭建了一个Hadoop完全分布式集群，在搭建过程中，需要注意各个配置文件的正确配置，以及节点之间的网络通信和SSH免密码登录的设置，这些都是保证集群正常运行的关键因素，随着对Hadoop的深入学习和应用，可以进一步探索如何在这个集群上进行大数据的存储和处理操作，如运行MapReduce作业、使用Hive等数据仓库工具等，还可以根据实际需求对集群进行优化，如调整资源分配、优化存储策略等。

标签： #hadoop #完全分布式 #搭建 #截图