《Hadoop 伪分布式搭建实验报告:探索分布式计算的基石》
一、引言
随着大数据时代的到来,分布式计算技术变得越来越重要,Hadoop 作为一个开源的分布式计算框架,被广泛应用于大规模数据处理,本实验报告将详细介绍 hadoop 集群伪分布式搭建的过程,包括环境准备、安装配置、启动与验证等步骤,通过实际操作,深入理解 hadoop 分布式计算的原理和架构,为进一步学习和应用 hadoop 技术打下坚实的基础。
二、实验环境
(一)操作系统
本次实验使用的操作系统为 CentOS 7.6。
(二)JDK 版本
安装了 JDK 1.8.0_292。
(三)Hadoop 版本
选择了 hadoop-3.2.1 版本。
三、实验步骤
(一)环境准备
1、安装 JDK
下载 JDK 安装包,并按照安装向导进行安装,安装完成后,配置环境变量,将 JAVA_HOME 指向 JDK 的安装目录。
2、下载 Hadoop
从 Hadoop 官方网站下载 hadoop-3.2.1 版本的 tar.gz 压缩包,并将其解压到指定目录。
(二)配置 Hadoop
1、配置 core-site.xml
打开 core-site.xml 文件,添加以下配置:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration>
2、配置 hdfs-site.xml
打开 hdfs-site.xml 文件,添加以下配置:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
3、配置 mapred-site.xml
打开 mapred-site.xml 文件,添加以下配置:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
4、配置 yarn-site.xml
打开 yarn-site.xml 文件,添加以下配置:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
5、配置 workers 文件
在 hadoop/etc/hadoop 目录下,创建一个 workers 文件,并在其中添加当前节点的主机名。
(三)启动 Hadoop
1、启动 namenode
在 hadoop/bin 目录下,执行以下命令启动 namenode:
./start-dfs.sh
2、启动 datanode
在 hadoop/bin 目录下,执行以下命令启动 datanode:
./start-dfs.sh
3、启动 resourcemanager
在 hadoop/bin 目录下,执行以下命令启动 resourcemanager:
./start-yarn.sh
4、启动 nodemanager
在 hadoop/bin 目录下,执行以下命令启动 nodemanager:
./start-yarn.sh
(四)验证 Hadoop
1、查看 namenode 状态
在浏览器中输入以下地址查看 namenode 状态:
http://localhost:50070/
2、查看 datanode 状态
在浏览器中输入以下地址查看 datanode 状态:
http://localhost:50075/
3、查看 resourcemanager 状态
在浏览器中输入以下地址查看 resourcemanager 状态:
http://localhost:8088/
4、执行 wordcount 示例
在 hadoop/bin 目录下,执行以下命令执行 wordcount 示例:
hadoop jar hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output
执行完成后,可以在 output 目录下查看 wordcount 的结果。
四、实验总结
通过本次实验,成功搭建了 hadoop 集群的伪分布式环境,并进行了基本的配置和验证,通过实际操作,深入了解了 hadoop 分布式计算的原理和架构,掌握了 hadoop 集群的搭建和管理方法,也遇到了一些问题,如环境变量配置错误、端口被占用等,通过查阅资料和不断尝试,最终解决了这些问题,在今后的学习和实践中,将继续深入学习 hadoop 技术,不断提高自己的技术水平。
仅供参考,你可以根据实际情况进行修改和完善。
评论列表