hadoop完全分布式jps，hadoop完全分布式集群搭建截图

欧气 2024年09月27日 21:05 2 0

标题：Hadoop 完全分布式集群搭建及 JPS 状态分析

一、引言

Hadoop 是一个开源的分布式计算框架，用于大规模数据存储和处理，在 Hadoop 生态系统中，完全分布式集群是一种常见的部署方式，它可以充分利用集群的计算资源，提高数据处理的效率和可靠性，本文将介绍如何搭建 Hadoop 完全分布式集群，并通过 JPS 命令查看集群中各个节点的进程状态。

二、Hadoop 完全分布式集群搭建

（一）环境准备

1、操作系统：CentOS 7

2、Java 环境：JDK 1.8

3、Hadoop 安装包：Hadoop-3.2.1.tar.gz

（二）安装步骤

1、安装 Java 环境

- 下载 JDK 1.8 安装包，并解压到指定目录。

- 配置环境变量：

- 在 /etc/profile 文件中添加以下内容：

export JAVA_HOME=/usr/java/jdk1.8.0_251
export PATH=$JAVA_HOME/bin:$PATH

- 使环境变量生效：

source /etc/profile

2、安装 Hadoop 集群

- 下载 Hadoop-3.2.1.tar.gz 安装包，并解压到指定目录。

- 配置 Hadoop 环境变量：

- 在 /etc/profile 文件中添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

- 使环境变量生效：

source /etc/profile

- 配置 Hadoop 核心配置文件：

- 进入 Hadoop 安装目录下的 etc/hadoop 目录，修改 core-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

- 修改 hdfs-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

- 修改 mapred-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

- 修改 yarn-site.xml 文件，添加以下内容：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
</configuration>

- 格式化 HDFS namenode：

hdfs namenode -format

- 启动 Hadoop 集群：

start-dfs.sh
start-yarn.sh

3、配置节点

- 在 master 节点上，执行以下命令：

jps

输出结果应该包含 NameNode、DataNode、ResourceManager、NodeManager 等进程。

- 在 slave1 和 slave2 节点上，执行以下命令：

jps

输出结果应该包含 DataNode、NodeManager 等进程。

三、JPS 状态分析

（一）NameNode 进程

NameNode 是 HDFS 的主节点，负责管理文件系统的命名空间和元数据，在 NameNode 进程中，我们可以看到以下信息：

1、NameNode：表示 NameNode 进程正在运行。

2、NameNodeRpcServer：表示 NameNodeRpcServer 进程正在运行，用于处理客户端的请求。

3、Jps：表示 Jps 进程正在运行，用于查看进程状态。

（二）DataNode 进程

DataNode 是 HDFS 的从节点，负责存储实际的数据块，在 DataNode 进程中，我们可以看到以下信息：

1、DataNode：表示 DataNode 进程正在运行。

2、DataNodeRpcServer：表示 DataNodeRpcServer 进程正在运行，用于处理客户端的请求。

3、Jps：表示 Jps 进程正在运行，用于查看进程状态。

（三）ResourceManager 进程

ResourceManager 是 YARN 的主节点，负责管理集群的资源分配和任务调度，在 ResourceManager 进程中，我们可以看到以下信息：

1、ResourceManager：表示 ResourceManager 进程正在运行。

2、ResourceManagerAdmin：表示 ResourceManagerAdmin 进程正在运行，用于管理 ResourceManager 的配置和状态。

3、Jps：表示 Jps 进程正在运行，用于查看进程状态。

（四）NodeManager 进程

NodeManager 是 YARN 的从节点，负责管理节点上的资源和任务，在 NodeManager 进程中，我们可以看到以下信息：

1、NodeManager：表示 NodeManager 进程正在运行。

2、NodeManagerHttpServer：表示 NodeManagerHttpServer 进程正在运行，用于提供 NodeManager 的 Web 服务。

3、Jps：表示 Jps 进程正在运行，用于查看进程状态。

四、结论

通过本文的介绍，我们成功搭建了 Hadoop 完全分布式集群，并通过 JPS 命令查看了集群中各个节点的进程状态，在实际应用中，我们可以根据 JPS 输出的信息，了解集群中各个进程的运行情况，及时发现和解决问题，确保集群的稳定运行。

标签： #hadoop #完全分布式 #集群搭建