本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,在国内外得到了广泛的应用,为了更好地学习Hadoop,搭建一个伪分布式集群是必不可少的,本文将详细介绍Hadoop伪分布式集群的搭建过程,帮助读者快速掌握Hadoop的开发环境配置。
图片来源于网络,如有侵权联系删除
搭建Hadoop伪分布式集群的准备工作
1、系统环境
操作系统:Linux(推荐CentOS 7)
Hadoop版本:Hadoop 3.2.1
Java版本:Java 8
2、网络环境
确保三台虚拟机之间能够正常通信,且IP地址在同一网段。
Hadoop伪分布式集群搭建步骤
1、下载Hadoop源码
从Apache Hadoop官网(https://hadoop.apache.org/releases.html)下载Hadoop 3.2.1版本的源码包。
2、解压Hadoop源码包
将下载的Hadoop源码包解压到指定的目录,/usr/local/hadoop
3、配置环境变量
在Linux系统中,编辑bashrc文件,添加Hadoop的环境变量:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使用source命令使配置生效:
source ~/.bashrc
4、配置Hadoop
图片来源于网络,如有侵权联系删除
(1)编辑hadoop-env.sh文件
在Hadoop根目录下的etc/hadoop目录中,编辑hadoop-env.sh文件,设置Java环境:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.x86_64
(2)编辑core-site.xml文件
在Hadoop根目录下的etc/hadoop目录中,编辑core-site.xml文件,配置Hadoop的存储路径:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration>
(3)编辑hdfs-site.xml文件
在Hadoop根目录下的etc/hadoop目录中,编辑hdfs-site.xml文件,配置HDFS的副本数量和存储路径:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/hdfs/datanode</value> </property> </configuration>
(4)编辑mapred-site.xml文件
在Hadoop根目录下的etc/hadoop目录中,编辑mapred-site.xml文件,配置MapReduce运行模式:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(5)编辑yarn-site.xml文件
在Hadoop根目录下的etc/hadoop目录中,编辑yarn-site.xml文件,配置YARN的集群模式:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
5、格式化NameNode
在Hadoop根目录下,执行以下命令格式化NameNode:
hdfs namenode -format
6、启动Hadoop集群
(1)启动HDFS
图片来源于网络,如有侵权联系删除
start-dfs.sh
(2)启动YARN
start-yarn.sh
(3)启动HistoryServer
mr-jobhistory-daemon.sh start historyserver
验证Hadoop集群是否启动成功
1、访问HDFS Web界面
在浏览器中输入http://localhost:50070,查看HDFS Web界面,确认HDFS是否启动成功。
2、访问YARN Web界面
在浏览器中输入http://localhost:8088,查看YARN Web界面,确认YARN是否启动成功。
3、执行Hadoop示例程序
在Hadoop根目录下的share/hadoop/mapreduce目录中,找到hadoop-examples.jar文件,执行以下命令:
hadoop jar hadoop-examples.jar wordcount /input/wordcount.txt /output/wordcount
在Hadoop根目录下的etc/hadoop目录中,找到wordcount.txt文件,内容如下:
Hello Hadoop Hello World Hadoop is great
执行上述命令后,Hadoop会处理wordcount.txt文件,并将结果输出到/output/wordcount目录。
通过以上步骤,我们已经成功搭建了一个Hadoop伪分布式集群,并配置了开发环境,可以在这个环境中学习Hadoop的各种应用场景,如HDFS、MapReduce、YARN等,希望本文能对您有所帮助。
评论列表