本文目录导读:
Hadoop作为一款分布式存储和处理框架,在处理海量数据方面具有显著优势,本文将详细讲解Hadoop完全分布式环境的搭建步骤,帮助您快速入门Hadoop。
环境准备
1、操作系统:Linux(推荐使用CentOS 7)
图片来源于网络,如有侵权联系删除
2、JDK:1.8及以上版本
3、Hadoop:3.x版本(本文以Hadoop 3.2.1为例)
4、网络配置:确保各节点间网络互通,配置静态IP地址
5、SSH免密登录:各节点间配置SSH免密登录,方便后续操作
搭建步骤
1、下载Hadoop安装包
从Apache Hadoop官网下载对应版本的安装包,hadoop-3.2.1.tar.gz。
2、解压安装包
将下载的安装包解压到指定目录,/opt/hadoop-3.2.1。
3、配置环境变量
在Linux终端中,打开vi编辑器,编辑.bashrc文件:
vi ~/.bashrc
在文件末尾添加以下内容:
export HADOOP_HOME=/opt/hadoop-3.2.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出编辑器,使配置生效:
source ~/.bashrc
4、配置Hadoop
进入Hadoop配置目录:
cd /opt/hadoop-3.2.1/etc/hadoop
(1)配置hadoop-env.sh
编辑hadoop-env.sh文件,设置JDK路径:
vi hadoop-env.sh
在文件中找到以下内容:
The java implementation to use. export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
将JAVA_HOME路径修改为您的JDK路径,
图片来源于网络,如有侵权联系删除
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
保存并退出编辑器。
(2)配置core-site.xml
编辑core-site.xml文件,配置Hadoop核心参数:
vi core-site.xml
添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-3.2.1/tmp</value> </property> </configuration>
(3)配置hdfs-site.xml
编辑hdfs-site.xml文件,配置HDFS参数:
vi hdfs-site.xml
添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop-3.2.1/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop-3.2.1/hdfs/datanode</value> </property> </configuration>
(4)配置slaves
编辑slaves文件,配置集群节点:
vi slaves
将集群中所有节点的IP地址或主机名添加到文件中,每行一个。
5、格式化HDFS
在master节点上执行以下命令,格式化HDFS:
hdfs namenode -format
6、启动Hadoop集群
在master节点上执行以下命令,启动Hadoop集群:
start-dfs.sh
7、验证集群状态
在master节点上执行以下命令,查看集群状态:
jps
应看到以下进程:
- NameNode
图片来源于网络,如有侵权联系删除
- SecondaryNameNode
- DataNode
8、配置YARN
(1)配置yarn-site.xml
编辑yarn-site.xml文件,配置YARN参数:
vi yarn-site.xml
添加以下内容:
<configuration> <property> <name>yarn.resourcemanager.host.name</name> <value>master</value> </property> </configuration>
(2)配置mapred-site.xml
编辑mapred-site.xml文件,配置MapReduce参数:
vi mapred-site.xml
添加以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
9、启动YARN
在master节点上执行以下命令,启动YARN:
start-yarn.sh
10、验证YARN集群状态
在master节点上执行以下命令,查看YARN集群状态:
jps
应看到以下进程:
- ResourceManager
- NodeManager
通过以上步骤,您已成功搭建了Hadoop完全分布式环境,在实际应用中,您可以根据需求调整集群配置,优化资源利用率,祝您在使用Hadoop的过程中一切顺利!
标签: #hadoop完全分布式搭建
评论列表