《Hadoop集群伪分布式搭建实验报告》
一、实验目的
图片来源于网络,如有侵权联系删除
本实验旨在搭建Hadoop伪分布式环境,深入理解Hadoop的基本架构、运行原理以及相关组件的交互方式,通过实际操作,掌握Hadoop的安装、配置和基本使用方法,为后续进一步学习大数据处理技术奠定基础。
二、实验环境
1、操作系统
- Ubuntu 18.04 LTS(64 - bit)。
2、软件版本
- Hadoop 3.3.0。
- Java JDK 1.8。
三、实验步骤
1、安装Java JDK
- 从Oracle官方网站下载Java JDK 1.8安装包。
- 使用命令sudo dpkg -i jdk - 8uXXX - linux - x64.bin
(XXX为具体版本号)进行安装。
- 配置Java环境变量,编辑~/.bashrc
文件,添加export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_XXX
(XXX为实际安装的版本号)和export PATH=$PATH:$JAVA_HOME/bin
,然后使用source ~/.bashrc
使配置生效。
2、安装Hadoop
- 从Hadoop官方网站下载Hadoop 3.3.0的二进制压缩包。
图片来源于网络,如有侵权联系删除
- 将压缩包解压到指定目录,例如/usr/local/hadoop
,使用命令tar -zxvf hadoop - 3.3.0.tar.gz -C /usr/local/
。
3、配置Hadoop环境变量
- 编辑~/.bashrc
文件,添加export HADOOP_HOME=/usr/local/hadoop
和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
,再执行source ~/.bashrc
。
4、配置Hadoop伪分布式模式
- 进入$HADOOP_HOME/etc/hadoop
目录。
- 编辑core - site.xml
文件,添加以下配置:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
- 编辑hdfs - site.xml
如下:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value> </property> </configuration>
- 编辑mapred - site.xml
文件(如果不存在则从mapred - site.xml.template
复制),添加:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- 编辑yarn - site.xml
文件,配置如下:
<configuration> <property> <name>yarn.nodemanager.aux - services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
5、格式化HDFS文件系统
- 执行命令hdfs namenode - format
。
6、启动Hadoop服务
- 首先启动HDFS,使用命令start - dfs.sh
。
- 然后启动YARN,使用命令start - yarn.sh
。
图片来源于网络,如有侵权联系删除
四、实验结果验证
1、检查HDFS状态
- 使用命令hdfs dfs -ls /
,可以看到HDFS根目录下的文件和目录信息。
2、查看YARN状态
- 通过浏览器访问http://localhost:8088
,可以查看YARN的资源管理界面,包括正在运行的任务、节点状态等信息。
五、实验总结
1、遇到的问题及解决方法
- 在格式化HDFS时,如果之前已经格式化过,再次格式化可能会导致数据丢失,解决方法是谨慎操作,确保数据备份或者在新的测试环境下进行格式化。
- 在启动服务过程中,可能会遇到端口被占用的情况,通过查看端口占用进程并杀死相关进程(使用lsof -i:port
查找进程,kill - 9 pid
杀死进程,其中port为被占用端口,pid为进程ID)来解决。
2、实验收获
- 通过本次实验,深入理解了Hadoop伪分布式环境的搭建过程,包括各个配置文件的作用,掌握了如何启动和管理Hadoop的基本服务,对Hadoop的架构有了更直观的认识,这为后续学习Hadoop集群的优化、大数据处理任务的开发等提供了坚实的基础。
评论列表