标题:Hadoop 伪分布式集群搭建实验报告
一、实验目的
本实验的目的是搭建一个 Hadoop 伪分布式集群,以便深入了解 Hadoop 生态系统的核心组件和工作原理,通过实际操作,掌握 Hadoop 的安装、配置和基本使用方法,为后续学习和应用 Hadoop 技术打下基础。
二、实验环境
1、操作系统:CentOS 7.9
2、JDK 版本:1.8.0_351
3、Hadoop 版本:3.3.4
三、实验步骤
1、安装 JDK
- 下载 JDK 安装包,并将其上传到服务器上。
- 解压安装包到指定目录,/usr/java/。
- 配置环境变量,将 JAVA_HOME 环境变量设置为 JDK 安装目录。
2、安装 Hadoop
- 下载 Hadoop 安装包,并将其上传到服务器上。
- 解压安装包到指定目录,/usr/local/hadoop/。
- 配置环境变量,将 HADOOP_HOME 环境变量设置为 Hadoop 安装目录。
- 配置 Hadoop 环境变量,将 HADOOP_CONF_DIR 环境变量设置为 Hadoop 配置目录。
3、配置 Hadoop 核心配置文件
- 进入 Hadoop 配置目录,/usr/local/hadoop/etc/hadoop/。
- 编辑 core-site.xml 文件,配置 Hadoop 核心参数,Hadoop 临时目录、文件系统等。
- 编辑 hdfs-site.xml 文件,配置 HDFS 相关参数,namenode 地址、数据块大小等。
- 编辑 mapred-site.xml 文件,配置 MapReduce 相关参数,jobtracker 地址等。
- 编辑 yarn-site.xml 文件,配置 YARN 相关参数,resourcemanager 地址等。
4、格式化 namenode
- 进入 Hadoop 安装目录,/usr/local/hadoop/。
- 执行格式化 namenode 命令,
bin/hdfs namenode -format
5、启动 Hadoop 服务
- 进入 Hadoop 安装目录,/usr/local/hadoop/。
- 执行启动 namenode 命令,
sbin/start-dfs.sh
- 执行启动 resourcemanager 命令,
sbin/start-yarn.sh
6、验证 Hadoop 服务是否启动成功
- 打开浏览器,输入 namenode 地址,http://localhost:50070/,查看 namenode 状态。
- 打开浏览器,输入 resourcemanager 地址,http://localhost:8088/,查看 resourcemanager 状态。
7、上传文件到 HDFS
- 进入 Hadoop 安装目录,/usr/local/hadoop/。
- 执行上传文件到 HDFS 命令,
bin/hdfs dfs -put /etc/passwd /user/
8、执行 MapReduce 程序
- 进入 Hadoop 安装目录,/usr/local/hadoop/。
- 执行执行 MapReduce 程序命令,
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /user/passwd /user/output
9、查看 MapReduce 程序执行结果
- 进入 Hadoop 安装目录,/usr/local/hadoop/。
- 执行查看 MapReduce 程序执行结果命令,
bin/hdfs dfs -cat /user/output/part-r-00000
四、实验总结
通过本次实验,成功搭建了一个 Hadoop 伪分布式集群,并掌握了 Hadoop 的安装、配置和基本使用方法,通过实际操作,深入了解了 Hadoop 生态系统的核心组件和工作原理,为后续学习和应用 Hadoop 技术打下了基础。
在实验过程中,遇到了一些问题,例如环境变量配置错误、端口被占用等,通过仔细检查和调试,最终解决了这些问题,也体会到了 Hadoop 技术的复杂性和挑战性,需要不断学习和实践,才能更好地掌握和应用 Hadoop 技术。
本次实验是一次非常有意义的实践活动,不仅提高了自己的动手能力和解决问题的能力,也为今后的学习和工作积累了宝贵的经验。
评论列表