《Hadoop分布式集群搭建实验报告》
一、实验目的
图片来源于网络,如有侵权联系删除
本实验旨在搭建一个Hadoop分布式集群环境,深入理解Hadoop的分布式架构原理,掌握Hadoop集群搭建的基本步骤和相关配置,为后续的大数据处理任务提供运行环境。
二、实验环境
1、硬件环境
- 3台虚拟机(节点),配置为2核CPU、4GB内存、20GB硬盘空间。
2、软件环境
- 操作系统:Ubuntu 18.04 LTS。
- JDK 1.8。
- Hadoop 3.3.0。
三、实验步骤
1、基础环境配置
- 在每台虚拟机上安装Ubuntu操作系统,并进行网络配置,确保各节点之间能够相互通信。
- 在每个节点上安装JDK 1.8,设置Java环境变量,在/etc/profile
文件中添加以下内容:
```bash
export JAVA_HOME=/usr/lib/jvm/java - 8 - openjdk - amd64
export PATH=$PATH:$JAVA_HOME/bin
```
- 然后使用source /etc/profile
使配置生效。
2、Hadoop安装与配置
- 下载Hadoop 3.3.0压缩包,并解压到指定目录,如/usr/local/hadoop
。
- 配置core - site.xml
文件:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
图片来源于网络,如有侵权联系删除
</configuration>
```
- 其中master
为指定的主节点名称,hadoop.tmp.dir
为Hadoop临时文件存储目录。
- 配置hdfs - site.xml
文件:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/dfs/data</value>
</property>
</configuration>
```
- 这里设置数据块的副本数为3,以及NameNode和DataNode的数据存储目录。
- 配置mapred - site.xml
文件:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
图片来源于网络,如有侵权联系删除
- 配置yarn - site.xml
文件:
```xml
<configuration>
<property>
<name>yarn.resourcemanager.hosts</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
3、集群节点配置
- 在/etc/hosts
文件中添加各节点的IP地址和主机名映射,
```bash
192.168.1.101 master
192.168.1.102 slave1
192.168.1.103 slave2
```
- 将主节点配置好的Hadoop文件复制到从节点,可以使用scp
命令,如scp - r /usr/local/hadoop slave1:/usr/local/
。
4、启动集群
- 在主节点上,首先格式化NameNode,使用命令hdfs namenode - format
。
- 然后启动Hadoop集群,通过start - all.sh
命令,可以通过jps
命令查看各节点上运行的进程,主节点上应该有NameNode、ResourceManager等进程,从节点上应该有DataNode、NodeManager等进程。
四、实验结果与验证
1、通过浏览器访问http://master:9870
(HDFS的Web界面),可以查看HDFS的文件系统状态,包括文件块的分布、节点的健康状况等。
2、编写一个简单的MapReduce程序,如WordCount示例程序,提交到集群运行,运行成功后,验证输出结果的正确性,这表明集群搭建成功并且能够正常运行MapReduce任务。
五、实验总结
通过本次Hadoop分布式集群搭建实验,我们深入学习了Hadoop的配置文件结构和集群搭建流程,在实验过程中,遇到了一些网络配置、文件权限等问题,但通过仔细排查和参考相关文档都得到了解决,搭建好的Hadoop集群为进一步研究大数据存储和处理技术提供了基础平台,也让我们对分布式系统的工作原理有了更直观的认识,在集群搭建过程中,严格按照步骤操作并且注意细节是确保集群成功搭建的关键。
评论列表