hadoop伪分布式搭建全过程，hadoop伪分布式环境搭建步骤

欧气 2024年10月02日 05:34 3 0

本文目录导读：

准备工作
下载与解压Hadoop
配置Hadoop
格式化HDFS
启动Hadoop服务
验证Hadoop伪分布式环境

《Hadoop伪分布式环境搭建全流程》

准备工作

1、系统环境准备

- 选择合适的操作系统，如Ubuntu，确保系统已经安装并且网络连接正常，更新系统软件包，在Ubuntu系统下可以使用命令sudo apt - get update和sudo apt - get upgrade来更新系统。

2、安装Java环境

hadoop伪分布式搭建全过程，hadoop伪分布式环境搭建步骤

图片来源于网络，如有侵权联系删除

- Hadoop运行依赖于Java环境，可以通过命令sudo apt - get install openjdk - 8 - jdk（以安装OpenJDK 8为例）安装Java，安装完成后，通过java - version命令验证Java是否安装成功。

下载与解压Hadoop

1、下载Hadoop

- 从Hadoop官方网站（https://hadoop.apache.org/releases.html）下载适合版本的Hadoop，例如选择Hadoop 3.x版本，可以使用wget命令进行下载，如wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz。

2、解压Hadoop

- 使用命令tar - zxvf hadoop - 3.3.0.tar.gz将下载的压缩包解压到指定目录，例如/usr/local目录下，解压后的目录可以重命名为hadoop方便管理，命令为mv hadoop - 3.3.0 hadoop。

配置Hadoop

1、配置hadoop - env.sh

- 进入Hadoop的安装目录下的etc/hadoop文件夹，找到hadoop - env.sh文件，编辑该文件，设置Java环境变量，找到export JAVA_HOME =这一行，将其修改为系统中Java的安装路径，例如export JAVA_HOME =/usr/lib/jvm/java - 8 - openjdk - amd64。

2、配置core - site.xml

- 在etc/hadoop文件夹中编辑core - site.xml文件，添加以下配置内容：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

这里将Hadoop的默认文件系统设置为hdfs://localhost:9000。

3、配置hdfs - site.xml

- 同样在etc/hadoop文件夹中编辑hdfs - site.xml文件，添加如下配置：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>dfs.replication</name>

hadoop伪分布式搭建全过程，hadoop伪分布式环境搭建步骤

图片来源于网络，如有侵权联系删除

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/hadoop_data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/hadoop_data/datanode</value>

</property>

</configuration>

```

其中dfs.replication设置为1表示数据副本数为1，因为是伪分布式环境，后面的dfs.namenode.name.dir和dfs.datanode.data.dir分别设置了NameNode和DataNode的数据存储目录。

4、配置mapred - site.xml

- 从mapred - site.xml.template复制得到mapred - site.xml，然后编辑该文件，添加以下配置：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

这里将MapReduce的框架名称设置为yarn。

5、配置yarn - site.xml

- 编辑yarn - site.xml文件，添加如下配置：

hadoop伪分布式搭建全过程，hadoop伪分布式环境搭建步骤

图片来源于网络，如有侵权联系删除

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

其中yarn.resourcemanager.hostname设置为localhost表示资源管理器运行在本地。

格式化HDFS

1、执行格式化命令

- 在Hadoop安装目录下的sbin文件夹中，执行命令./hdfs namenode - format，这个命令会初始化Hadoop的文件系统，创建相关的目录结构，格式化操作只需要在首次搭建或者重新初始化文件系统时进行。

启动Hadoop服务

1、启动HDFS服务

- 在sbin文件夹中执行./start - dfs.sh命令来启动HDFS服务，启动后可以通过jps命令查看进程，应该能看到NameNode和DataNode进程。

2、启动YARN服务

- 执行./start - yarn.sh命令启动YARN服务，再次使用jps命令查看进程，此时应该能看到ResourceManager和NodeManager进程。

验证Hadoop伪分布式环境

1、访问Hadoop Web界面

- 可以通过浏览器访问http://localhost:9870（HDFS的Web界面）和http://localhost:8088（YARN的Web界面）来查看Hadoop集群的状态信息，在HDFS的Web界面中，可以查看文件系统的使用情况、文件列表等；在YARN的Web界面中，可以查看任务的运行状态、资源使用情况等。

2、运行示例程序

- 在Hadoop安装目录下的share/hadoop/mapreduce文件夹中有一些示例程序，例如hadoop - jar hadoop - mapreduce - examples - 3.3.0.jar pi 2 5，这个命令会运行一个计算圆周率的示例程序，通过MapReduce框架在伪分布式环境下计算圆周率的近似值。

通过以上步骤，就可以成功搭建Hadoop伪分布式环境，并且可以进行后续的大数据处理和分析相关的学习与实践。

标签： #hadoop #伪分布式 #搭建 #步骤