hadoop配置虚拟机，hadoop集群3台虚拟机搭建完整教程

欧气 2024年09月29日 03:07 2 0

标题：《Hadoop 集群 3 台虚拟机搭建全攻略》

一、引言

随着大数据时代的到来，Hadoop 作为一个开源的分布式计算平台，已经成为了大数据处理的首选工具之一，本文将详细介绍如何在 3 台虚拟机上搭建 Hadoop 集群，包括环境准备、软件安装、配置文件修改、集群启动和验证等步骤，通过本文的学习，读者将能够搭建一个简单的 Hadoop 集群，并对 Hadoop 的工作原理有更深入的了解。

二、环境准备

1、操作系统：本文将使用 CentOS 7 作为虚拟机的操作系统。

2、内存和 CPU：建议为每台虚拟机分配至少 2GB 的内存和 2 个 CPU 核心。

3、网络环境：确保 3 台虚拟机能够相互通信，可以通过设置静态 IP 地址或使用 NAT 网络模式来实现。

4、SSH 服务：在每台虚拟机上安装 SSH 服务，以便能够通过 SSH 命令远程登录到虚拟机。

三、软件安装

1、JDK：Hadoop 需要运行在 Java 环境中，因此需要先安装 JDK，可以从 Oracle 官网下载 JDK 安装包，并按照安装向导进行安装。

2、Hadoop：可以从 Hadoop 官网下载 Hadoop 安装包，并按照安装向导进行安装，在安装过程中，需要选择 Hadoop 的安装目录和配置文件目录。

3、其他依赖包：除了 JDK 和 Hadoop 之外，还需要安装一些其他的依赖包，如 SSH 客户端、Python 等，可以使用 yum 命令或手动安装这些依赖包。

四、配置文件修改

1、core-site.xml：在 Hadoop 的安装目录下找到 core-site.xml 文件，并打开该文件，在该文件中，需要修改以下配置项：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
</configuration>

fs.defaultFS 配置项指定了 HDFS 的默认文件系统，namenode 是 namenode 节点的主机名或 IP 地址，9000 是 namenode 节点的端口号，hadoop.tmp.dir 配置项指定了 Hadoop 的临时目录，该目录用于存储 Hadoop 运行过程中的临时文件。

2、hdfs-site.xml：在 Hadoop 的安装目录下找到 hdfs-site.xml 文件，并打开该文件，在该文件中，需要修改以下配置项：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/dfs/data</value>
    </property>
</configuration>

dfs.replication 配置项指定了 HDFS 的副本数，这里设置为 3，表示每个数据块会在 3 个不同的节点上存储，dfs.namenode.name.dir 配置项指定了 namenode 节点的元数据目录，该目录用于存储 HDFS 的文件系统元数据，dfs.datanode.data.dir 配置项指定了 datanode 节点的数据目录，该目录用于存储 HDFS 的实际数据。

3、yarn-site.xml：在 Hadoop 的安装目录下找到 yarn-site.xml 文件，并打开该文件，在该文件中，需要修改以下配置项：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resourcemanager</value>
    </property>
</configuration>

yarn.nodemanager.aux-services 配置项指定了 nodemanager 节点需要启动的辅助服务，这里设置为 mapreduce_shuffle，表示 nodemanager 节点需要启动 MapReduce 框架的 shuffle 服务，yarn.resourcemanager.hostname 配置项指定了 resourcemanager 节点的主机名或 IP 地址。

4、mapred-site.xml：在 Hadoop 的安装目录下找到 mapred-site.xml 文件，并打开该文件，在该文件中，需要修改以下配置项：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

mapreduce.framework.name 配置项指定了 MapReduce 框架的运行模式，这里设置为 yarn，表示 MapReduce 框架将在 YARN 资源管理框架上运行。

5、workers：在 Hadoop 的安装目录下找到 workers 文件，并打开该文件，在该文件中，添加以下内容：

namenode
datanode
resourcemanager
nodemanager

namenode、datanode、resourcemanager 和 nodemanager 分别是 namenode 节点、datanode 节点、resourcemanager 节点和 nodemanager 节点的主机名或 IP 地址。

五、集群启动

1、启动 namenode 节点：在 namenode 节点上，使用以下命令启动 namenode 服务：

$HADOOP_HOME/sbin/start-dfs.sh

2、启动 datanode 节点：在 datanode 节点上，使用以下命令启动 datanode 服务：

$HADOOP_HOME/sbin/start-dfs.sh

3、启动 resourcemanager 节点：在 resourcemanager 节点上，使用以下命令启动 resourcemanager 服务：

$HADOOP_HOME/sbin/start-yarn.sh

4、启动 nodemanager 节点：在 nodemanager 节点上，使用以下命令启动 nodemanager 服务：

$HADOOP_HOME/sbin/start-yarn.sh

六、集群验证

1、查看 HDFS 状态：在 namenode 节点上，使用以下命令查看 HDFS 的状态：

$HADOOP_HOME/bin/hdfs dfsadmin -report

如果输出中显示 NameNode 正在运行，DataNode 节点的状态都是健康的，HDFS 已经正常启动。

2、查看 YARN 状态：在 resourcemanager 节点上，使用以下命令查看 YARN 的状态：

$HADOOP_HOME/bin/yarn node -list

如果输出中显示 ResourceManager 正在运行，NodeManager 节点的状态都是健康的，YARN 已经正常启动。

3、运行 MapReduce 程序：在客户端节点上，使用以下命令运行一个 MapReduce 程序：

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /input /output

/input 是输入目录，/output 是输出目录，如果输出中显示 MapReduce 程序已经成功运行，并且输出结果正确，Hadoop 集群已经正常工作。

七、结论

通过本文的学习，读者已经了解了如何在 3 台虚拟机上搭建 Hadoop 集群，包括环境准备、软件安装、配置文件修改、集群启动和验证等步骤，通过实际操作，读者可以更好地理解 Hadoop 的工作原理和集群管理，希望本文能够对读者有所帮助。

标签： #Hadoop #虚拟机 #集群 #搭建