本文目录导读:
Hadoop作为一款分布式计算框架,在处理大规模数据集方面具有显著优势,在搭建Hadoop集群时,伪分布式集群是最简单的搭建方式,适合初学者学习Hadoop,本文将详细讲解Hadoop伪分布式集群的搭建步骤,帮助您轻松入门。
环境准备
1、操作系统:Linux(本文以CentOS 7为例)
2、JDK:1.8及以上版本
图片来源于网络,如有侵权联系删除
3、Hadoop:本文以Hadoop 3.2.1为例
4、网络配置:确保三台虚拟机之间的网络互通
搭建步骤
1、安装JDK
在每台虚拟机上,使用以下命令安装JDK:
sudo yum install -y java-1.8.0-openjdk
2、配置环境变量
编辑/etc/profile
文件,添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64 export PATH=$JAVA_HOME/bin:$PATH
3、下载Hadoop
在任意一台虚拟机上,使用以下命令下载Hadoop:
图片来源于网络,如有侵权联系删除
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
4、解压Hadoop
将下载的Hadoop解压到指定目录,例如/usr/local/hadoop
:
tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local/hadoop
5、配置Hadoop
进入Hadoop配置目录:
cd /usr/local/hadoop/etc/hadoop
编辑hadoop-env.sh
文件,设置JDK路径:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
编辑core-site.xml
文件,配置Hadoop核心参数:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> </configuration>
编辑hdfs-site.xml
文件,配置HDFS参数:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/hdfs/datanode</value> </property> </configuration>
6、格式化NameNode
图片来源于网络,如有侵权联系删除
在master节点上,使用以下命令格式化NameNode:
hdfs namenode -format
7、启动Hadoop服务
在master节点上,启动HDFS和YARN服务:
start-dfs.sh start-yarn.sh
8、验证集群
在master节点上,打开浏览器,访问http://master:9870/,查看HDFS Web界面;在master节点上,打开另一个浏览器窗口,访问http://master:8088/,查看YARN Web界面。
评论列表