本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,已经在各个行业得到了广泛应用,本文将详细介绍Hadoop完全分布式集群的搭建过程,包括环境准备、配置文件修改、集群启动与测试等环节,帮助读者全面了解Hadoop集群的搭建方法。
环境准备
1、操作系统:Hadoop支持多种操作系统,本文以CentOS 7.0为例。
2、JDK:Hadoop依赖于Java环境,需安装JDK 1.8或更高版本。
图片来源于网络,如有侵权联系删除
3、SSH:用于集群节点间免密登录,提高集群管理效率。
4、Hadoop版本:本文以Hadoop 3.3.4为例。
安装步骤
1、安装JDK
(1)下载JDK安装包:前往Oracle官网下载JDK 1.8或更高版本。
(2)解压安装包:将下载的JDK安装包解压到指定目录,如/usr/local/
。
(3)配置环境变量:编辑/etc/profile
文件,添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_241 export PATH=$PATH:$JAVA_HOME/bin
(4)使配置生效:执行source /etc/profile
命令。
2、安装SSH
(1)安装SSH服务:执行以下命令安装SSH服务。
yum install openssh-server
(2)生成SSH密钥:在所有节点上执行以下命令生成SSH密钥。
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
(3)将公钥复制到其他节点:执行以下命令将公钥复制到其他节点。
ssh-copy-id -i ~/.ssh/id_rsa.pub root@<节点IP>
3、下载Hadoop
图片来源于网络,如有侵权联系删除
(1)下载Hadoop安装包:前往Apache Hadoop官网下载Hadoop 3.3.4安装包。
(2)解压安装包:将下载的Hadoop安装包解压到指定目录,如/usr/local/
。
配置文件修改
1、修改hadoop-env.sh
文件
编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh
文件,设置JDK路径:
export JAVA_HOME=/usr/local/jdk1.8.0_241
2、修改core-site.xml
文件
编辑/usr/local/hadoop/etc/hadoop/core-site.xml
文件,添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/data</value> </property> </configuration>
3、修改hdfs-site.xml
文件
编辑/usr/local/hadoop/etc/hadoop/hdfs-site.xml
文件,添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/data/hdfs/datanode</value> </property> </configuration>
4、修改yarn-site.xml
文件
编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml
文件,添加以下内容:
<configuration> <property> <name>yarn.resourcemanager.host</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
5、修改mapred-site.xml
文件
编辑/usr/local/hadoop/etc/hadoop/mapred-site.xml
文件,添加以下内容:
图片来源于网络,如有侵权联系删除
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
集群启动与测试
1、格式化NameNode
在master节点上执行以下命令格式化NameNode:
hdfs namenode -format
2、启动HDFS
在master节点上执行以下命令启动HDFS:
start-dfs.sh
3、启动YARN
在master节点上执行以下命令启动YARN:
start-yarn.sh
4、测试集群
(1)在master节点上执行以下命令查看HDFS文件系统:
hdfs dfs -ls /
(2)在master节点上执行以下命令查看YARN资源管理器:
yarn node -list
至此,Hadoop完全分布式集群搭建完成,在实际应用中,您可以根据需求对集群进行扩展和优化。
标签: #hadoop完全分布式集群搭建全过程
评论列表