本文目录导读:
实验背景
随着大数据时代的到来,Hadoop作为一款开源的分布式存储和计算框架,在处理大规模数据集方面表现出色,为了更好地学习和掌握Hadoop技术,我们进行了Hadoop伪分布式环境的搭建实验,本实验旨在通过实际操作,熟悉Hadoop的安装与配置过程,为后续大数据处理打下坚实基础。
实验目的
1、掌握Hadoop伪分布式环境的搭建方法。
2、了解Hadoop的架构及各个组件的作用。
3、熟悉Hadoop的常用命令和操作。
图片来源于网络,如有侵权联系删除
实验环境
1、操作系统:CentOS 7
2、Java环境:JDK 1.8
3、Hadoop版本:Hadoop 3.2.1
实验步骤
1、准备工作
(1)下载Hadoop 3.2.1安装包,解压到指定目录。
(2)配置环境变量
在~/.bash_profile文件中添加以下内容:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
(3)配置hadoop配置文件
图片来源于网络,如有侵权联系删除
(1)修改hadoop配置文件hadoop-env.sh,设置Java环境变量:
export JAVA_HOME=/usr/local/jdk1.8.0_231
(2)修改core-site.xml,配置Hadoop的存储目录:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/data</value> </property> </configuration>
(3)修改hdfs-site.xml,配置HDFS的副本因子:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
(4)修改mapred-site.xml,配置MapReduce运行在YARN上:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
2、格式化HDFS文件系统
hdfs namenode -format
3、启动Hadoop服务
start-dfs.sh start-yarn.sh
4、测试Hadoop服务
使用浏览器访问HDFS的Web界面:http://localhost:50070,查看NameNode和DataNode的状态。
图片来源于网络,如有侵权联系删除
实验结果与分析
1、成功搭建Hadoop伪分布式环境,验证了各个组件的正常运行。
2、通过实验,了解了Hadoop的架构及各个组件的作用,如NameNode、DataNode、Secondary NameNode、ResourceManager、NodeManager等。
3、熟悉了Hadoop的常用命令和操作,如hdfs dfs -ls、hdfs dfs -put、hdfs dfs -get等。
4、在实验过程中,遇到了一些问题,如环境变量配置错误、HDFS文件系统格式化失败等,通过查阅资料和请教同学,成功解决了这些问题。
本次实验通过搭建Hadoop伪分布式环境,让我们对Hadoop技术有了更深入的了解,在实验过程中,我们学会了Hadoop的安装、配置和常用命令,为后续大数据处理奠定了基础,我们也体会到了团队合作和查阅资料的重要性,在今后的学习中,我们将继续努力,不断拓展自己的技术领域。
标签: #hadoop集群伪分布式搭建实验报告
评论列表