《Hadoop 分布式集群搭建实验报告》
一、实验目的
本次实验的目的是搭建一个 Hadoop 分布式集群,深入了解 Hadoop 生态系统的核心组件及其工作原理,掌握 Hadoop 集群的部署和管理方法,为后续学习和应用 Hadoop 技术打下坚实的基础。
二、实验环境
1、操作系统:CentOS 7.6
2、JDK:OpenJDK 1.8.0_292
3、Hadoop:Hadoop 3.2.1
三、实验步骤
1、安装 JDK
- 下载 OpenJDK 1.8.0_292 安装包,并上传到服务器。
- 解压安装包到指定目录,/usr/java/。
- 配置环境变量,在/etc/profile 文件中添加以下内容:
```
export JAVA_HOME=/usr/java/jdk1.8.0_292
export PATH=$PATH:$JAVA_HOME/bin
```
- 使环境变量生效,执行以下命令:
```
source /etc/profile
```
2、安装 Hadoop
- 下载 Hadoop 3.2.1 安装包,并上传到服务器。
- 解压安装包到指定目录,/usr/local/hadoop/。
- 配置 Hadoop 环境变量,在/etc/profile 文件中添加以下内容:
```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
- 使环境变量生效,执行以下命令:
```
source /etc/profile
```
3、配置 Hadoop 集群
- 配置 core-site.xml 文件,在/usr/local/hadoop/etc/hadoop 目录下创建 core-site.xml 文件,并添加以下内容:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
```
- 配置 hdfs-site.xml 文件,在/usr/local/hadoop/etc/hadoop 目录下创建 hdfs-site.xml 文件,并添加以下内容:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
```
- 配置 mapred-site.xml 文件,在/usr/local/hadoop/etc/hadoop 目录下创建 mapred-site.xml 文件,并添加以下内容:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- 配置 yarn-site.xml 文件,在/usr/local/hadoop/etc/hadoop 目录下创建 yarn-site.xml 文件,并添加以下内容:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
- 配置 slaves 文件,在/usr/local/hadoop/etc/hadoop 目录下创建 slaves 文件,并添加以下内容:
```
namenode
datanode1
datanode2
```
4、格式化 HDFS namenode
- 执行以下命令格式化 HDFS namenode:
```
hdfs namenode -format
```
5、启动 Hadoop 集群
- 执行以下命令启动 Hadoop 集群:
```
start-dfs.sh
start-yarn.sh
```
6、验证 Hadoop 集群
- 执行以下命令查看 HDFS 状态:
```
hdfs dfsadmin -report
```
- 执行以下命令查看 YARN 状态:
```
yarn node -list
```
- 执行以下命令上传文件到 HDFS:
```
hdfs dfs -put /etc/profile /user/
```
- 执行以下命令下载文件到本地:
```
hdfs dfs -get /user/profile /etc/
```
四、实验总结
通过本次实验,我们成功搭建了一个 Hadoop 分布式集群,并对 Hadoop 生态系统的核心组件及其工作原理有了更深入的了解,在实验过程中,我们遇到了一些问题,例如环境变量配置错误、端口被占用等,但通过查阅相关资料和不断尝试,最终都得到了解决。
在后续的学习和应用中,我们将进一步深入学习 Hadoop 技术,掌握 Hadoop 集群的管理和优化方法,为大数据处理和分析提供更强大的支持。
评论列表