hadoop分布式集群搭建完整教程，从零开始，Hadoop分布式集群搭建详解与实战

欧气 2024年10月30日 09:34 0 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
集群配置
集群启动
测试集群

随着大数据时代的到来，Hadoop作为一款开源的大数据处理框架，已经成为企业级应用的首选，本文将详细介绍如何从零开始搭建一个Hadoop分布式集群，包括环境准备、集群配置、集群启动、测试等环节。

环境准备

1、操作系统：选择一个稳定、兼容性好的操作系统，如CentOS 7、Ubuntu 18.04等。

2、JDK：Hadoop基于Java开发，需要安装JDK 1.8及以上版本。

3、Hadoop：下载最新版本的Hadoop，解压到指定目录。

4、网络环境：确保集群中的所有节点之间能够正常通信。

集群配置

1、配置集群角色

Hadoop集群主要由以下角色组成：

（1）NameNode：负责管理整个文件系统的命名空间，存储元数据信息。

（2）DataNode：负责存储实际的数据块，响应客户端的读写请求。

（3）Secondary NameNode：负责定期备份NameNode的元数据信息。

根据实际需求，配置集群角色数量。

hadoop分布式集群搭建完整教程，从零开始，Hadoop分布式集群搭建详解与实战

图片来源于网络，如有侵权联系删除

2、修改Hadoop配置文件

（1）修改hadoop-env.sh：配置JDK路径。

（2）修改core-site.xml：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

（3）修改hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/opt/hadoop-3.3.4/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/opt/hadoop-3.3.4/hdfs/datanode</value>
    </property>
</configuration>

（4）修改yarn-site.xml：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.nodemanager.address</name>
        <value>master:12380</value>
    </property>
</configuration>

（5）修改mapred-site.xml：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

3、配置集群节点

（1）配置hosts文件：在所有节点上修改hosts文件，将集群中所有节点的IP和主机名对应关系添加进去。

（2）配置SSH免密登录：在所有节点上生成SSH密钥对，并将公钥复制到其他节点。

集群启动

1、格式化NameNode

hdfs namenode -format

2、启动HDFS

hadoop分布式集群搭建完整教程，从零开始，Hadoop分布式集群搭建详解与实战

图片来源于网络，如有侵权联系删除

start-dfs.sh

3、启动YARN

start-yarn.sh

4、查看集群状态

jps

测试集群

1、创建HDFS文件系统

hdfs dfs -mkdir -p /user/hadoop

2、上传文件到HDFS

hdfs dfs -put /etc/passwd /user/hadoop/

3、查看HDFS文件

hdfs dfs -ls /user/hadoop

4、启动MapReduce任务

hadoop jar /opt/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /user/hadoop/passwd /user/hadoop/output

5、查看MapReduce任务结果

hdfs dfs -cat /user/hadoop/output/part-r-00000

本文详细介绍了如何从零开始搭建一个Hadoop分布式集群，包括环境准备、集群配置、集群启动、测试等环节，通过本文的学习，读者可以掌握Hadoop集群搭建的基本技能，为后续的大数据处理应用打下基础。

标签： #hadoop分布式集群搭建