hadoop 伪分布式，hadoop伪分布式搭建的步骤，Hadoop 伪分布式环境搭建全攻略，从零开始构建大数据处理平台

欧气 2024年10月04日 05:45 1 0

本文详细介绍了Hadoop伪分布式环境搭建的步骤，从零开始构建大数据处理平台。通过本文，读者可以了解Hadoop伪分布式搭建的全过程，为后续大数据处理工作奠定基础。

本文目录导读：

环境准备
安装 Java 环境
安装 Hadoop
配置 Hadoop
格式化 HDFS
启动 Hadoop 伪分布式环境
测试 Hadoop 伪分布式环境

随着大数据时代的到来，Hadoop 作为一款开源的大数据处理框架，成为了众多企业和研究机构的首选，伪分布式模式是 Hadoop 部署的入门级模式，它能够帮助初学者快速了解 Hadoop 的基本原理和架构，本文将详细讲解如何从零开始搭建一个 Hadoop 伪分布式环境，帮助您轻松入门大数据处理。

环境准备

在搭建 Hadoop 伪分布式环境之前，我们需要准备以下软件和硬件环境：

1、操作系统：推荐使用 Ubuntu 16.04 或 CentOS 7 系统版本。

hadoop 伪分布式，hadoop伪分布式搭建的步骤，Hadoop 伪分布式环境搭建全攻略，从零开始构建大数据处理平台

图片来源于网络，如有侵权联系删除

2、Java 环境：Hadoop 需要依赖于 Java 运行环境，确保 Java 版本为 1.8。

3、Hadoop 版本：本文以 Hadoop 3.2.1 版本为例。

安装 Java 环境

1、安装 OpenJDK：

sudo apt-get update
sudo apt-get install openjdk-8-jdk

2、检查 Java 版本：

java -version

确保 Java 版本为 1.8。

安装 Hadoop

1、下载 Hadoop 安装包：

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

2、解压安装包：

tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local/

3、重命名 Hadoop 目录：

hadoop 伪分布式，hadoop伪分布式搭建的步骤，Hadoop 伪分布式环境搭建全攻略，从零开始构建大数据处理平台

图片来源于网络，如有侵权联系删除

mv /usr/local/hadoop-3.2.1 /usr/local/hadoop

4、设置 Hadoop 环境变量：

echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc

5、检查 Hadoop 环境变量：

echo $HADOOP_HOME
echo $PATH

配置 Hadoop

1、修改配置文件：

cd /usr/local/hadoop/etc/hadoop

2、修改hadoop-env.sh 文件，设置 Java 环境变量：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64

3、修改core-site.xml 文件，配置 Hadoop 的工作目录：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/tmp</value>
  </property>
</configuration>

4、修改hdfs-site.xml 文件，配置 HDFS 的副本数量和存储目录：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/hdfs/datanode</value>
  </property>
</configuration>

5、修改mapred-site.xml 文件，配置 MapReduce 的运行模式为伪分布式：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

6、修改yarn-site.xml 文件，配置 ResourceManager 和 NodeManager 的运行目录：

hadoop 伪分布式，hadoop伪分布式搭建的步骤，Hadoop 伪分布式环境搭建全攻略，从零开始构建大数据处理平台

图片来源于网络，如有侵权联系删除

<configuration>
  <property>
    <name>yarn.nodemanager.log.dir</name>
    <value>/usr/local/hadoop/yarn/logs</value>
  </property>
</configuration>

格式化 HDFS

hadoop namenode -format

启动 Hadoop 伪分布式环境

1、启动 NameNode：

start-dfs.sh

2、启动 ResourceManager 和 NodeManager：

start-yarn.sh

测试 Hadoop 伪分布式环境

1、查看 HDFS 文件系统：

hdfs dfs -ls /

2、运行一个简单的 Hadoop 程序：

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output

3、查看 MapReduce 程序的输出结果：

hdfs dfs -cat /output/part-r-00000

至此，您已经成功搭建了一个 Hadoop 伪分布式环境，可以开始进行大数据处理实践了，祝您学习愉快！

标签： #Hadoop伪分布式搭建