hadoop集群伪分布式搭建实验报告，配置开发环境 - hadoop安装与伪分布式集群搭建研究

欧气 2024年10月01日 02:35 2 0

本文目录导读：

实验环境准备
Hadoop伪分布式集群搭建
实验验证
常见问题及解决

《Hadoop伪分布式集群搭建实验：构建大数据处理环境》

随着大数据时代的到来，Hadoop作为处理海量数据的开源框架，在数据存储和分析领域发挥着至关重要的作用，搭建Hadoop伪分布式集群是深入学习和研究Hadoop的重要基础，通过模拟分布式环境，可以在单机上体验Hadoop的基本功能和工作流程。

hadoop集群伪分布式搭建实验报告，配置开发环境 - hadoop安装与伪分布式集群搭建研究

图片来源于网络，如有侵权联系删除

实验环境准备

（一）硬件要求

本实验在一台具有足够内存（建议至少8GB）和存储空间（建议至少100GB）的普通PC机上进行，操作系统为Ubuntu 20.04 LTS。

（二）软件安装

1、Java安装

- 首先检查系统是否已安装Java，在终端输入java -version，如果未安装，则从Oracle官方网站下载适合Ubuntu系统的JDK版本，例如JDK 11。

- 下载完成后，使用命令行进行安装，解压下载的JDK文件到指定目录，如/usr/local/java，然后设置环境变量，在~/.bashrc文件中添加如下内容：

```bash

export JAVA_HOME = /usr/local/java/jdk - 11

export PATH = $PATH:$JAVA_HOME/bin

```

- 保存文件后，在终端输入source ~/.bashrc使环境变量生效。

2、Hadoop安装

- 从Hadoop官方网站下载稳定版本的Hadoop，如Hadoop 3.3.0，将下载的压缩包解压到指定目录，如/usr/local/hadoop。

- 同样需要设置Hadoop的环境变量，在~/.bashrc文件中添加：

```bash

export HADOOP_HOME = /usr/local/hadoop

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

- 执行source ~/.bashrc。

Hadoop伪分布式集群搭建

（一）配置文件修改

1、core - site.xml

- 在$HADOOP_HOME/etc/hadoop目录下找到core - site.xml文件，添加以下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

- 这里指定了Hadoop的默认文件系统为HDFS，并且监听本地的9000端口。

2、hdfs - site.xml

hadoop集群伪分布式搭建实验报告，配置开发环境 - hadoop安装与伪分布式集群搭建研究

图片来源于网络，如有侵权联系删除

- 编辑hdfs - site.xml文件，添加如下配置：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/datanode</value>

</property>

</configuration>

```

- 其中dfs.replication设置为1，因为是伪分布式环境，只有一个数据节点。dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了名称节点和数据节点的数据存储目录。

3、mapred - site.xml

- 从模板文件mapred - site.xml.template复制一份得到mapred - site.xml，并编辑添加以下内容：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 这是指定MapReduce框架运行在YARN上。

4、yarn - site.xml

- 编辑yarn - site.xml文件，配置如下：

```xml

hadoop集群伪分布式搭建实验报告，配置开发环境 - hadoop安装与伪分布式集群搭建研究

图片来源于网络，如有侵权联系删除

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

- 这里指定了资源管理器运行在本地主机，并且设置了节点管理器的辅助服务。

（二）格式化HDFS

在终端输入hdfs namenode - format命令来格式化HDFS，这一步操作会初始化HDFS的文件系统，创建相关的目录结构，如名称节点的元数据存储目录等。

（三）启动Hadoop集群

1、首先启动HDFS，在终端输入start - dfs.sh命令，可以通过jps命令查看启动的进程，应该能看到NameNode、DataNode和SecondaryNameNode进程。

2、然后启动YARN，执行start - yarn.sh命令，再次使用jps命令查看，会看到ResourceManager和NodeManager进程。

实验验证

（一）HDFS操作验证

1、使用hdfs dfs - mkdir /test命令在HDFS上创建一个名为/test的目录。

2、使用hdfs dfs - put命令将本地文件上传到HDFS的/test目录下，例如hdfs dfs - put /home/user/file.txt /test。

3、通过hdfs dfs - ls /test命令查看上传的文件是否存在于/test目录中。

（二）MapReduce示例验证

1、运行Hadoop自带的MapReduce示例程序，如hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar wordcount /input /output，这里假设已经在HDFS的/input目录下有输入文件，程序会对输入文件中的单词进行计数，并将结果输出到/output目录。

2、通过hdfs dfs - cat /output/part - r - 00000命令查看单词计数的结果。

常见问题及解决

（一）端口占用问题

在启动Hadoop集群过程中，如果遇到端口被占用的情况，例如9000端口被其他程序占用，可以通过netstat -tlnp命令查看占用端口的进程，然后根据进程号使用kill - 9 [进程号]命令杀掉占用端口的进程。

（二）权限问题

在执行HDFS操作时，可能会遇到权限不足的问题，这可能是因为用户没有足够的权限访问HDFS的某些目录，可以通过在core - site.xml中配置hadoop.http.staticuser.user属性为当前操作的用户名来解决，

<property>
  <name>hadoop.http.staticuser.user</name>
  <value>your_username</value>
</property>

通过本次Hadoop伪分布式集群搭建实验，成功构建了一个模拟的分布式环境，在这个环境中，可以进行HDFS的基本操作以及运行MapReduce程序，这为进一步深入学习Hadoop的高级特性，如分布式计算、数据存储优化等提供了基础平台，在搭建过程中也遇到了一些常见的问题，如端口占用和权限问题，通过相应的解决方法得以顺利解决，这也增强了对Hadoop系统的理解和故障排查能力。

标签： #hadoop #伪分布式 #集群搭建 #开发环境