本文目录导读:
图片来源于网络,如有侵权联系删除
随着大数据时代的到来,Hadoop作为一款分布式存储和处理框架,已经成为大数据领域的基石,本文将详细介绍Hadoop 3.3.6完全分布式集群的搭建过程,帮助您从入门到实践,轻松掌握Hadoop集群部署。
环境准备
在搭建Hadoop 3.3.6完全分布式集群之前,我们需要准备以下环境:
1、操作系统:推荐使用CentOS 7.6,其他Linux发行版也可。
2、Java环境:Hadoop 3.3.6需要Java 8以上版本,推荐使用OpenJDK。
3、网络环境:确保集群中的节点之间可以正常通信。
4、软件包:下载Hadoop 3.3.6安装包,通常为tar.gz格式。
集群规划
在搭建集群之前,我们需要对集群进行规划,包括节点分配、角色分配等。
1、节点分配:根据实际需求,确定集群中包含多少个节点,本文以3个节点为例,分别命名为node01、node02和node03。
2、角色分配:Hadoop 3.3.6集群包含以下角色:
(1)NameNode:负责存储元数据,管理文件系统命名空间。
(2)DataNode:负责存储实际的数据块,响应客户端的读写请求。
(3)Secondary NameNode:定期备份NameNode的元数据,减轻NameNode的负载。
图片来源于网络,如有侵权联系删除
安装Hadoop
1、解压Hadoop安装包,将其放置到指定目录,如/hadoop-3.3.6。
2、配置环境变量:
vi ~/.bashrc
在文件末尾添加以下内容:
export HADOOP_HOME=/hadoop-3.3.6 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出编辑器,执行以下命令使环境变量生效:
source ~/.bashrc
3、配置Hadoop:
(1)配置hadoop-env.sh:
vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh
在文件中设置Java Home:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.272.x86_64
(2)配置core-site.xml:
vi $HADOOP_HOME/etc/hadoop/core-site.xml
添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node01:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-3.3.6/data/tmp</value> </property> </configuration>
(3)配置hdfs-site.xml:
vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml
添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop-3.3.6/data/nameNode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop-3.3.6/data/dataNode</value> </property> </configuration>
(4)配置yarn-site.xml:
图片来源于网络,如有侵权联系删除
vi $HADOOP_HOME/etc/hadoop/yarn-site.xml
添加以下内容:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>node01</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
格式化NameNode
在node01节点上执行以下命令,格式化NameNode:
hdfs namenode -format
启动集群
1、在node01节点上启动NameNode:
start-dfs.sh
2、在node01节点上启动Secondary NameNode:
start-ymr.sh
3、在node02和node03节点上启动DataNode:
start-dfs.sh
4、在node01节点上启动Resource Manager:
start-yarn.sh
5、在node01节点上启动Node Manager:
start-yarn.sh
验证集群
1、在node01节点上,使用JPS命令查看运行中的Hadoop进程:
jps
2、在浏览器中访问http://node01:50070/,查看HDFS Web界面。
3、在浏览器中访问http://node01:8088/,查看YARN Web界面。
至此,Hadoop 3.3.6完全分布式集群搭建完成,您可以根据实际需求进行后续操作,如上传文件、运行MapReduce程序等,祝您学习愉快!
标签: #hadoop3.3.6完全分布式搭建
评论列表