hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从零开始构建高效数据处理平台

欧气 2024年10月07日 11:36 0 0

本文详细介绍了Hadoop伪分布式环境搭建的步骤和指南，从零开始构建高效数据处理平台。通过学习本文，您将了解如何快速搭建Hadoop伪分布式环境，为数据处理工作奠定基础。

本文目录导读：

准备工作
环境搭建步骤

随着大数据时代的到来，Hadoop 作为一款开源的分布式计算框架，已经成为处理大规模数据集的重要工具，伪分布式模式是 Hadoop 的一种轻量级部署方式，适合初学者或小型项目使用，本文将详细介绍如何搭建一个 Hadoop 伪分布式环境，帮助您从零开始构建一个高效的数据处理平台。

准备工作

1、硬件要求

- 服务器：一台或多台具备足够内存和存储空间的物理服务器，推荐配置为 4 核 CPU、16GB 内存、1TB 硬盘。

hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从零开始构建高效数据处理平台

图片来源于网络，如有侵权联系删除

- 操作系统：推荐使用 Ubuntu 16.04 或 CentOS 7。

2、软件要求

- JDK：1.8 或更高版本。

- Hadoop：推荐使用 3.3.4 或更高版本。

环境搭建步骤

1、安装 JDK

（1）下载 JDK 安装包：访问 Oracle 官网下载 JDK 1.8 或更高版本。

（2）解压安装包：将下载的 JDK 安装包解压到指定目录，/usr/local/jdk1.8.0_231。

（3）配置环境变量：编辑 /etc/profile 文件，添加以下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

（4）使环境变量生效：执行 source /etc/profile 命令。

2、安装 Hadoop

hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从零开始构建高效数据处理平台

图片来源于网络，如有侵权联系删除

（1）下载 Hadoop 安装包：访问 Apache Hadoop 官网下载适合您的版本。

（2）解压安装包：将下载的 Hadoop 安装包解压到指定目录，/usr/local/hadoop-3.3.4。

（3）配置 Hadoop 环境变量：编辑 /etc/profile 文件，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（4）使环境变量生效：执行 source /etc/profile 命令。

3、配置 Hadoop 伪分布式环境

（1）编辑 hadoop-env.sh 文件：进入 Hadoop 安装目录，编辑 etc/hadoop/hadoop-env.sh 文件，设置 Java 环境变量：

export JAVA_HOME=/usr/local/jdk1.8.0_231

（2）编辑 core-site.xml 文件：进入 Hadoop 安装目录，编辑 etc/hadoop/core-site.xml 文件，配置 Hadoop 伪分布式环境：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop-3.3.4/tmp</value>
  </property>
</configuration>

（3）编辑 hdfs-site.xml 文件：进入 Hadoop 安装目录，编辑 etc/hadoop/hdfs-site.xml 文件，配置 HDFS 参数：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop-3.3.4/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop-3.3.4/hdfs/datanode</value>
  </property>
</configuration>

（4）编辑 mapred-site.xml 文件：进入 Hadoop 安装目录，编辑 etc/hadoop/mapred-site.xml 文件，配置 MapReduce 参数：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

（5）编辑 yarn-site.xml 文件：进入 Hadoop 安装目录，编辑 etc/hadoop/yarn-site.xml 文件，配置 Yarn 参数：

hadoop 伪分布式，hadoop伪分布式环境搭建步骤，Hadoop 伪分布式环境搭建指南，从零开始构建高效数据处理平台

图片来源于网络，如有侵权联系删除

<configuration>
  <property>
    <name>yarn.resourcemanager.host</name>
    <value>localhost</value>
  </property>
</configuration>

4、格式化 HDFS

在 Hadoop 安装目录下，执行以下命令格式化 HDFS：

hdfs namenode -format

5、启动 Hadoop 服务

在 Hadoop 安装目录下，执行以下命令启动 Hadoop 服务：

./sbin/start-dfs.sh
./sbin/start-yarn.sh

6、验证 Hadoop 伪分布式环境

打开浏览器，访问 http://localhost:50070，您应该能看到 HDFS Web 界面，打开另一个终端，执行以下命令查看 Yarn 应用列表：

yarn application -list

至此，Hadoop 伪分布式环境搭建完成，您可以开始使用 Hadoop 进行大数据处理了，祝您学习愉快！

标签： #Hadoop伪分布式搭建 #平台构建指南