本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,被广泛应用于各行各业,而搭建Hadoop伪分布式集群是学习Hadoop的第一步,本文将详细讲解Hadoop伪分布式集群的搭建过程,包括环境准备、软件安装、配置文件修改、集群启动等步骤。
环境准备
1、操作系统:建议使用Linux系统,如CentOS 7.0。
2、硬件环境:建议配置如下:
- CPU:Intel Core i5或更高
图片来源于网络,如有侵权联系删除
- 内存:8GB或更高
- 硬盘:至少500GB
3、软件环境:
- JDK:1.8及以上版本
- SSH:用于集群节点间免密登录
- Git:用于下载Hadoop源码
软件安装
1、安装JDK
下载JDK安装包,解压到指定目录,并设置环境变量。
# 解压JDK安装包 tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/local # 设置环境变量 vi /etc/profile
在文件末尾添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_171 export PATH=$PATH:$JAVA_HOME/bin
保存文件并退出,然后执行以下命令使环境变量生效:
source /etc/profile
2、安装SSH
使用系统自带的包管理工具安装SSH服务。
图片来源于网络,如有侵权联系删除
yum install openssh-server
3、安装Git
使用系统自带的包管理工具安装Git。
yum install git
4、下载Hadoop源码
使用Git下载Hadoop源码。
git clone https://github.com/apache/hadoop.git cd hadoop
配置文件修改
1、修改hadoop-env.sh
vi hadoop-env.sh
在文件中设置JDK路径:
export JAVA_HOME=/usr/local/jdk1.8.0_171
2、修改core-site.xml
vi core-site.xml
添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.3.1/tmp</value> </property> </configuration>
3、修改hdfs-site.xml
vi hdfs-site.xml
添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop-3.3.1/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop-3.3.1/hdfs/datanode</value> </property> </configuration>
4、修改mapred-site.xml
vi mapred-site.xml
添加以下内容:
图片来源于网络,如有侵权联系删除
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5、修改yarn-site.xml
vi yarn-site.xml
添加以下内容:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hosts</name> <value>localhost</value> </property> </configuration>
集群启动
1、格式化NameNode
bin/hdfs namenode -format
2、启动HDFS
sbin/start-dfs.sh
3、启动YARN
sbin/start-yarn.sh
4、验证集群启动
打开浏览器,访问以下地址:
http://localhost:50070
可看到HDFS Web UI界面。
至此,Hadoop伪分布式集群搭建完成,您可以使用Hadoop提供的各种工具和命令进行大数据处理实践。
评论列表