hadoop 伪分布式，Hadoop 伪分布式环境搭建详解及操作指南

欧气 2024年11月06日 06:22 1 0

本文目录导读：

Hadoop 伪分布式环境搭建概述

Hadoop 伪分布式环境搭建是学习和使用 Hadoop 的基础，伪分布式环境将 Hadoop 的三个核心组件（HDFS、YARN、MapReduce）运行在同一台机器上，便于开发和测试，本文将详细介绍 Hadoop 伪分布式环境搭建的步骤及注意事项。

二、搭建 Hadoop 伪分布式环境前的准备工作

1、确保操作系统满足要求：Hadoop 伪分布式环境支持多种操作系统，如 Linux、Windows 等，本文以 Linux 为例进行介绍。

2、安装 JDK：Hadoop 需要依赖 JDK 环境，请确保已安装 JDK 1.8 或更高版本。

hadoop 伪分布式，Hadoop 伪分布式环境搭建详解及操作指南

图片来源于网络，如有侵权联系删除

3、安装 SSH：SSH（Secure Shell）用于远程登录和管理 Hadoop 服务器，请确保已安装 SSH。

4、安装 Apache Hadoop：从 Apache Hadoop 官方网站下载 Hadoop 安装包，并解压到指定目录。

1、配置 Hadoop 配置文件

（1）编辑hadoop-env.sh 文件，设置 Java 环境变量：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.292.b10-0.el7_9.x86_64

（2）编辑core-site.xml 文件，配置 HDFS 的工作目录和名称节点地址：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

（3）编辑hdfs-site.xml 文件，配置 HDFS 的工作目录和副本数量：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

（4）编辑mapred-site.xml 文件，配置 MapReduce 的运行模式：

hadoop 伪分布式，Hadoop 伪分布式环境搭建详解及操作指南

图片来源于网络，如有侵权联系删除

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）编辑yarn-site.xml 文件，配置 YARN 的工作目录和资源管理器地址：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

2、格式化 HDFS

在终端执行以下命令，格式化 HDFS：

hdfs namenode -format

3、启动 Hadoop 服务

（1）启动 NameNode：

start-dfs.sh

（2）启动 ResourceManager：

start-yarn.sh

（3）启动 HistoryServer：

hadoop 伪分布式，Hadoop 伪分布式环境搭建详解及操作指南

图片来源于网络，如有侵权联系删除

mr-jobhistory-daemon.sh start historyserver

4、验证 Hadoop 伪分布式环境

在终端执行以下命令，查看 Hadoop 是否正常运行：

jps

输出结果应包含 NameNode、SecondaryNameNode、ResourceManager、NodeManager、JobHistoryServer 等进程。

通过以上步骤，您已成功搭建 Hadoop 伪分布式环境，您可以使用 Hadoop 进行数据处理和分析，在实际应用中，Hadoop 可扩展性强，可轻松搭建分布式环境，实现海量数据的处理和分析，希望本文对您有所帮助。