伪分布式 Hadoop 集群搭建实验报告
一、实验目的
本次实验的目的是搭建一个伪分布式 Hadoop 集群,了解 Hadoop 生态系统的基本组件和工作原理,掌握 Hadoop 集群的配置和部署方法。
二、实验环境
1、操作系统:CentOS 7.6
2、JDK:1.8.0_292
3、Hadoop:3.2.2
三、实验步骤
1、安装 JDK
- 下载 JDK 安装包并解压到指定目录。
- 配置环境变量:在/etc/profile 文件中添加以下内容:
```
export JAVA_HOME=/usr/java/jdk1.8.0_292
export PATH=$JAVA_HOME/bin:$PATH
```
- 使环境变量生效:执行 source /etc/profile 命令。
2、安装 Hadoop
- 下载 Hadoop 安装包并解压到指定目录。
- 配置环境变量:在/etc/profile 文件中添加以下内容:
```
export HADOOP_HOME=/usr/local/hadoop-3.2.2
export PATH=$HADOOP_HOME/bin:$PATH
```
- 使环境变量生效:执行 source /etc/profile 命令。
3、配置 Hadoop 集群
- 编辑 core-site.xml 文件:在 Hadoop 安装目录的/etc/hadoop 目录下,找到 core-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
- 编辑 hdfs-site.xml 文件:在 Hadoop 安装目录的/etc/hadoop 目录下,找到 hdfs-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
- 编辑 mapred-site.xml 文件:在 Hadoop 安装目录的/etc/hadoop 目录下,找到 mapred-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- 编辑 yarn-site.xml 文件:在 Hadoop 安装目录的/etc/hadoop 目录下,找到 yarn-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
- 格式化 HDFS 文件系统:在 Hadoop 安装目录的/bin 目录下,执行以下命令:
```
hdfs namenode -format
```
4、启动 Hadoop 集群
- 启动 HDFS 服务:在 Hadoop 安装目录的/bin 目录下,执行以下命令:
```
start-dfs.sh
```
- 启动 YARN 服务:在 Hadoop 安装目录的/bin 目录下,执行以下命令:
```
start-yarn.sh
```
- 查看 Hadoop 集群状态:在浏览器中输入 http://localhost:50070 查看 HDFS 集群状态,输入 http://localhost:8088 查看 YARN 集群状态。
四、实验结果
1、HDFS 集群状态
- 打开浏览器,输入 http://localhost:50070,查看 HDFS 集群状态,可以看到 NameNode 正在运行,并且有一个正在运行的 DataNode。
- 点击 NameNode 链接,可以查看 NameNode 的详细信息,包括 NameNode 的日志、数据存储位置等。
- 点击 DataNode 链接,可以查看 DataNode 的详细信息,包括 DataNode 的日志、数据存储位置等。
2、YARN 集群状态
- 打开浏览器,输入 http://localhost:8088,查看 YARN 集群状态,可以看到 ResourceManager 正在运行,并且有一个正在运行的 NodeManager。
- 点击 ResourceManager 链接,可以查看 ResourceManager 的详细信息,包括 ResourceManager 的日志、资源分配情况等。
- 点击 NodeManager 链接,可以查看 NodeManager 的详细信息,包括 NodeManager 的日志、资源使用情况等。
五、实验总结
通过本次实验,成功搭建了一个伪分布式 Hadoop 集群,了解了 Hadoop 生态系统的基本组件和工作原理,掌握了 Hadoop 集群的配置和部署方法,在实验过程中,遇到了一些问题,如环境变量配置错误、端口被占用等,通过查阅相关资料和调试,最终解决了这些问题,通过本次实验,提高了自己的动手能力和解决问题的能力,为今后学习和使用 Hadoop 技术打下了坚实的基础。
评论列表