hadoop分布式集群搭建实验报告，hadoop分布式集群搭建

欧气 2024年09月27日 04:52 25 0

标题：Hadoop 分布式集群搭建实验报告

一、实验目的

本次实验的目的是搭建一个 Hadoop 分布式集群，以便更好地理解和掌握 Hadoop 生态系统的核心组件和工作原理，通过实际搭建和配置 Hadoop 集群，我们可以深入了解分布式计算的概念和技术，提高对大数据处理的能力和实践经验。

二、实验环境

1、操作系统：CentOS 7.6

2、JDK 版本：1.8.0_292

3、Hadoop 版本：3.2.1

三、实验步骤

1、安装 JDK

- 下载 JDK 安装包并解压到指定目录。

- 配置环境变量，将 JDK 安装目录添加到系统环境变量中。

- 验证 JDK 是否安装成功，在终端输入java -version命令，查看 JDK 版本信息。

2、安装 SSH 服务

- 安装 SSH 服务，在终端输入yum install -y sshd命令。

- 启动 SSH 服务，在终端输入systemctl start sshd命令。

- 配置 SSH 免密登录，在终端输入ssh-keygen -t rsa命令，生成 SSH 密钥对，将公钥复制到authorized_keys 文件中，以便免密登录。

3、下载 Hadoop 安装包

- 从 Hadoop 官方网站下载 Hadoop 安装包，并解压到指定目录。

4、配置 Hadoop 环境变量

- 配置 Hadoop 环境变量，将 Hadoop 安装目录添加到系统环境变量中。

- 配置 Hadoop 环境变量，将 Hadoop 配置文件目录添加到系统环境变量中。

5、配置 Hadoop 核心配置文件

- 进入 Hadoop 配置文件目录，修改 core-site.xml 文件，配置 Hadoop 运行所需的基本参数，如 Hadoop 主节点地址、数据存储目录等。

- 进入 Hadoop 配置文件目录，修改 hdfs-site.xml 文件，配置 HDFS 分布式文件系统的相关参数，如数据块大小、副本数量等。

- 进入 Hadoop 配置文件目录，修改 mapred-site.xml 文件，配置 MapReduce 计算框架的相关参数，如任务执行器数量、内存分配等。

- 进入 Hadoop 配置文件目录，修改 yarn-site.xml 文件，配置 YARN 资源管理框架的相关参数，如资源管理器地址、节点管理器地址等。

6、格式化 HDFS 文件系统

- 在终端输入hdfs namenode -format命令，格式化 HDFS 文件系统。

7、启动 Hadoop 集群

- 在终端输入start-dfs.sh命令，启动 HDFS 分布式文件系统。

- 在终端输入start-yarn.sh命令，启动 YARN 资源管理框架。

8、验证 Hadoop 集群是否启动成功

- 在浏览器中输入http://localhost:50070，查看 HDFS 分布式文件系统的 Web 界面，验证 HDFS 文件系统是否启动成功。

- 在浏览器中输入http://localhost:8088，查看 YARN 资源管理框架的 Web 界面，验证 YARN 资源管理框架是否启动成功。

四、实验结果

通过本次实验，我们成功搭建了一个 Hadoop 分布式集群，并验证了 Hadoop 集群的各项功能，具体实验结果如下：

1、HDFS 分布式文件系统：HDFS 分布式文件系统成功启动，我们可以在 Web 界面中查看文件系统的目录结构和文件信息。

2、YARN 资源管理框架：YARN 资源管理框架成功启动，我们可以在 Web 界面中查看资源管理器和节点管理器的状态信息。

3、MapReduce 计算框架：MapReduce 计算框架成功启动，我们可以在 Web 界面中查看任务执行器的状态信息和任务执行情况。

五、实验总结

通过本次实验，我们深入了解了 Hadoop 分布式集群的搭建过程和工作原理，掌握了 Hadoop 生态系统的核心组件和配置方法，我们也遇到了一些问题，如 SSH 免密登录失败、Hadoop 集群启动失败等，通过查阅相关资料和解决问题的过程，我们提高了自己的问题解决能力和实践经验。

本次实验是一次非常有意义的实践活动，为我们今后学习和使用 Hadoop 生态系统打下了坚实的基础。