搭建hadoop伪分布式环境步骤，配置开发环境 - hadoop安装与伪分布式集群搭建情况

欧气 2024年10月01日 06:29 4 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
Hadoop安装
Hadoop伪分布式配置
启动Hadoop伪分布式集群
测试Hadoop伪分布式集群

《Hadoop伪分布式环境搭建全流程》

Hadoop是一个开源的分布式计算框架，在大数据处理领域具有广泛的应用，搭建Hadoop伪分布式环境是学习和探索Hadoop功能的重要基础，通过在单机上模拟分布式集群的运行模式，可以让我们初步了解Hadoop的核心概念和工作机制，为后续深入学习分布式计算和大数据处理奠定坚实的基础。

环境准备

（一）系统要求

1、操作系统选择

建议选择Linux系统，例如Ubuntu或CentOS，这里以Ubuntu为例进行讲解，确保系统已经安装并更新到最新版本，以避免可能出现的软件包依赖问题。

2、硬件要求

虽然是伪分布式环境，但仍然需要一定的硬件资源，至少需要2GB的内存和足够的磁盘空间（建议10GB以上），以满足Hadoop运行过程中的存储和计算需求。

（二）软件安装

1、Java安装

Hadoop是基于Java开发的，所以需要先安装Java环境，可以通过以下命令在Ubuntu上安装OpenJDK：

sudo apt - get update

sudo apt - get install openjdk - 8 - jdk

安装完成后，可以通过java - version命令检查Java版本是否安装成功。

2、SSH安装与配置

Hadoop集群中的节点之间通过SSH进行通信，在Ubuntu上安装SSH服务：

sudo apt - get install openssh - server

- 为了能够在不输入密码的情况下进行SSH连接（这在Hadoop启动过程中是必要的），需要配置SSH无密码登录，可以使用以下命令生成SSH密钥对：

ssh - keygen - t rsa - P '' - f ~/.ssh/id_rsa

- 然后将公钥添加到授权文件中：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

- 通过ssh localhost命令测试SSH是否能够无密码登录，如果不需要输入密码即可登录，则配置成功。

Hadoop安装

（一）下载Hadoop

1、访问Hadoop官方网站（https://hadoop.apache.org/releases.html），选择适合的Hadoop版本进行下载，可以选择较稳定的版本，如Hadoop 3.x系列。

2、将下载的压缩包解压到指定的目录，例如/usr/local目录下：

sudo tar - zxvf hadoop - 3.x.x.tar.gz - C /usr/local

- 为了方便操作，可以将解压后的Hadoop目录重命名为hadoop：

sudo mv /usr/local/hadoop - 3.x.x /usr/local/hadoop

（二）配置Hadoop环境变量

1、打开~/.bashrc文件：

vi ~/.bashrc

2、在文件末尾添加以下内容：

export HADOOP_HOME = /usr/local/hadoop

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3、使配置生效：

搭建hadoop伪分布式环境步骤，配置开发环境 - hadoop安装与伪分布式集群搭建情况

图片来源于网络，如有侵权联系删除

source ~/.bashrc

Hadoop伪分布式配置

（一）核心配置文件（core - site.xml）

1、打开$HADOOP_HOME/etc/hadoop/core - site.xml文件：

vi $HADOOP_HOME/etc/hadoop/core - site.xml

2、在<configuration>标签内添加以下配置：

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

- 这个配置指定了Hadoop默认的文件系统为HDFS，并且设置了NameNode运行在本地的9000端口。

（二）HDFS配置文件（hdfs - site.xml）

1、打开$HADOOP_HOME/etc/hadoop/hdfs - site.xml文件：

vi $HADOOP_HOME/etc/hadoop/hdfs - site.xml

2、在<configuration>标签内添加以下配置：

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

- 由于是伪分布式环境，只有一个节点，所以数据块的副本数设置为1。

（三）MapReduce配置文件（mapred - site.xml）

1、从模板文件创建mapred - site.xml文件：

cp $HADOOP_HOME/etc/hadoop/mapred - site.xml.template $HADOOP_HOME/etc/hadoop/mapred - site.xml

2、打开$HADOOP_HOME/etc/hadoop/mapred - site.xml文件：

vi $HADOOP_HOME/etc/hadoop/mapred - site.xml

3、在<configuration>标签内添加以下配置：

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

- 这个配置指定MapReduce使用YARN作为资源管理框架。

（四）YARN配置文件（yarn - site.xml）

1、打开$HADOOP_HOME/etc/hadoop/yarn - site.xml文件：

vi $HADOOP_HOME/etc/hadoop/yarn - site.xml

2、在<configuration>标签内添加以下配置：

搭建hadoop伪分布式环境步骤，配置开发环境 - hadoop安装与伪分布式集群搭建情况

图片来源于网络，如有侵权联系删除

<property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

- 这些配置分别指定了YARN的辅助服务和资源管理器运行在本地主机。

启动Hadoop伪分布式集群

（一）格式化HDFS

1、在终端中执行以下命令格式化HDFS：

hdfs namenode - format

- 这个操作会初始化HDFS文件系统，创建必要的目录结构，注意，这个操作只需要在首次启动集群或者重新初始化集群时执行。

（二）启动Hadoop服务

1、启动HDFS服务：

start - dfs.sh

- 这个命令会启动NameNode、DataNode等HDFS相关的服务，可以通过jps命令查看启动的进程，应该能够看到NameNode、DataNode等进程。

2、启动YARN服务：

start - yarn.sh

- 启动后通过jps命令可以看到ResourceManager和NodeManager等进程。

测试Hadoop伪分布式集群

（一）创建HDFS目录

1、使用以下命令在HDFS上创建一个测试目录：

hdfs dfs - mkdir /test

2、可以使用hdfs dfs - ls /命令查看HDFS根目录下的文件和目录，应该能够看到刚刚创建的/test目录。

（二）运行示例MapReduce任务

1、Hadoop自带了一些示例MapReduce任务，可以运行wordcount示例来测试集群是否正常工作。

- 首先在本地创建一个测试文件，例如test.txt，在文件中输入一些文本内容。

- 将测试文件上传到HDFS：

hdfs dfs - put test.txt /test

- 然后运行wordcount示例：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.x.x.jar wordcount /test/test.txt /test/output

- 这个命令会对/test/test.txt文件中的单词进行统计，并将结果输出到/test/output目录下，可以通过hdfs dfs - cat /test/output/part - r - 00000命令查看统计结果。

通过以上步骤，我们成功搭建了Hadoop伪分布式环境并进行了简单的测试，在搭建过程中，我们需要注意各个配置文件的正确配置，以及服务启动的顺序，这个伪分布式环境可以作为我们进一步学习Hadoop的基础，例如深入研究HDFS的存储原理、MapReduce的编程模型以及YARN的资源管理机制等，在实际应用中，根据不同的需求可能需要对Hadoop进行更复杂的配置和优化，但这个基础的搭建过程为我们提供了一个良好的开端。

标签： #hadoop #伪分布式 #环境搭建 #开发环境