本文目录导读:
一、Hadoop 3.3.6完全分布式集群搭建
1、准备工作
在搭建Hadoop 3.3.6完全分布式集群之前,我们需要准备以下环境:
图片来源于网络,如有侵权联系删除
(1)一台或多台服务器,这里以三台服务器为例,分别命名为Node1、Node2、Node3。
(2)操作系统:推荐使用CentOS 7。
(3)Java环境:推荐使用OpenJDK 1.8。
(4)网络环境:确保三台服务器之间能够相互通信。
2、安装Hadoop
(1)下载Hadoop 3.3.6版本:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
(2)将Hadoop安装包上传到每台服务器的/home/hadoop目录下。
(3)解压安装包:tar -zxvf hadoop-3.3.6.tar.gz
(4)配置环境变量:在每台服务器的~/.bashrc文件中添加以下内容:
export HADOOP_HOME=/home/hadoop/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(5)使环境变量生效:source ~/.bashrc
3、配置Hadoop
(1)配置集群信息
在每台服务器的hadoop配置文件hadoop-env.sh中,设置Java环境:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.272.x86_64
(2)配置核心文件core-site.xml
在每台服务器的etc/hadoop/core-site.xml中,配置以下内容:
<property>
<name>fs.defaultFS</name>
<value>hdfs://Node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-3.3.6/tmp</value>
</property>
(3)配置HDFS文件系统
在每台服务器的etc/hadoop/hdfs-site.xml中,配置以下内容:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
图片来源于网络,如有侵权联系删除
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hadoop-3.3.6/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hadoop-3.3.6/hdfs/datanode</value>
</property>
(4)配置YARN资源管理器
在每台服务器的etc/hadoop/yarn-site.xml中,配置以下内容:
<property>
<name>yarn.resourcemanager.hostname</name>
<value>Node1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
(5)配置MapReduce
在每台服务器的etc/hadoop/mapred-site.xml中,配置以下内容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
4、格式化HDFS文件系统
在Node1上执行以下命令:
hdfs namenode -format
5、启动Hadoop集群
(1)在Node1上启动NameNode:
start-dfs.sh
(2)在Node1上启动YARN资源管理器:
start-yarn.sh
图片来源于网络,如有侵权联系删除
(3)在Node1上启动 ResourceManager:
yarn-daemon.sh start resourcemanager
(4)在Node2和Node3上启动 NodeManager:
yarn-daemon.sh start nodemanager
深入解析JPS命令
JPS命令是Java Process Status Tool的缩写,用于查看Java进程的状态,在Hadoop集群中,JPS命令可以帮助我们快速查看集群中各个组件的进程状态。
1、JPS命令的基本用法
jps命令的基本用法如下:
jps [options] [args]
options和args分别为命令选项和参数。
2、JPS命令的常用选项
(1)-q:只显示进程ID和主类名,不显示其他信息。
(2)-m:显示启动参数。
(3)-l:显示完整的主类名。
(4)-v:显示Java虚拟机的启动参数。
3、JPS命令在Hadoop集群中的应用
在Hadoop集群中,我们可以使用JPS命令查看以下进程状态:
(1)查看NameNode进程状态:
jps -q
输出结果:NameNode
(2)查看SecondaryNameNode进程状态:
jps -q
输出结果:SecondaryNameNode
(3)查看 ResourceManager进程状态:
jps -q
输出结果:ResourceManager
(4)查看 NodeManager进程状态:
jps -q
输出结果:NodeManager
通过JPS命令,我们可以快速了解Hadoop集群中各个组件的进程状态,有助于我们及时发现并解决问题。
本文详细介绍了Hadoop 3.3.6完全分布式集群的搭建过程,并对JPS命令进行了深入解析,在实际操作过程中,我们需要根据实际情况调整配置文件,确保集群稳定运行,JPS命令可以帮助我们快速查看集群中各个组件的进程状态,方便我们进行故障排查。
标签: #hadoop3.3.6完全分布式搭建
评论列表