本文目录导读:
图片来源于网络,如有侵权联系删除
随着大数据时代的到来,Hadoop作为一款开源的分布式计算框架,已成为处理海量数据的重要工具,本文将详细讲解Hadoop伪分布式集群的搭建过程,包括环境准备、软件安装、配置文件修改、集群启动等步骤。
环境准备
1、操作系统:本文以CentOS 7.5为例,其他Linux发行版也可参考。
2、硬件环境:CPU 2核以上,内存4GB以上,硬盘空间10GB以上。
3、软件环境:
- JDK:Hadoop需要JDK 1.8或更高版本,本文以JDK 1.8为例。
- SSH:用于集群节点间免密登录。
软件安装
1、安装JDK
(1)下载JDK安装包:访问Oracle官网下载JDK 1.8安装包,选择Linux版本。
(2)上传安装包:使用SCP或Xftp等工具将安装包上传至服务器。
(3)解压安装包:在根目录下执行以下命令:
```
tar -zxvf jdk-8u231-linux-x64.tar.gz
```
(4)配置环境变量:编辑~/.bash_profile
文件,添加以下内容:
```
export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
```
(5)使配置生效:执行以下命令:
```
source ~/.bash_profile
```
2、安装SSH
(1)安装SSH服务:执行以下命令:
```
yum install openssh-server
```
(2)启动SSH服务:执行以下命令:
```
systemctl start sshd
```
(3)设置SSH服务开机自启:执行以下命令:
```
systemctl enable sshd
```
3、安装Hadoop
(1)下载Hadoop安装包:访问Apache Hadoop官网下载Hadoop 3.3.4安装包。
(2)上传安装包:使用SCP或Xftp等工具将安装包上传至服务器。
(3)解压安装包:在根目录下执行以下命令:
```
tar -zxvf hadoop-3.3.4.tar.gz
```
(4)配置环境变量:编辑~/.bash_profile
文件,添加以下内容:
```
图片来源于网络,如有侵权联系删除
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
```
(5)使配置生效:执行以下命令:
```
source ~/.bash_profile
```
配置文件修改
1、修改core-site.xml
文件:在$HADOOP_HOME/etc/hadoop
目录下,将以下内容添加到core-site.xml
文件中:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-3.3.4/tmp</value>
</property>
</configuration>
```
2、修改hdfs-site.xml
文件:在$HADOOP_HOME/etc/hadoop
目录下,将以下内容添加到hdfs-site.xml
文件中:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop-3.3.4/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop-3.3.4/hdfs/datanode</value>
</property>
</configuration>
```
3、修改mapred-site.xml
文件:在$HADOOP_HOME/etc/hadoop
目录下,将以下内容添加到mapred-site.xml
文件中:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
图片来源于网络,如有侵权联系删除
</property>
</configuration>
```
4、修改yarn-site.xml
文件:在$HADOOP_HOME/etc/hadoop
目录下,将以下内容添加到yarn-site.xml
文件中:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hosts</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
```
集群启动
1、格式化NameNode:执行以下命令,初始化HDFS文件系统:
```
hdfs namenode -format
```
2、启动HDFS服务:执行以下命令:
```
sbin/start-dfs.sh
```
3、启动YARN服务:执行以下命令:
```
sbin/start-yarn.sh
```
4、启动ResourceManager:执行以下命令:
```
sbin/yarn-daemon.sh start resourcemanager
```
5、启动NodeManager:执行以下命令:
```
sbin/yarn-daemon.sh start nodemanager
```
本文详细讲解了Hadoop伪分布式集群的搭建过程,包括环境准备、软件安装、配置文件修改、集群启动等步骤,通过本文的指导,您应该能够成功搭建一个Hadoop伪分布式环境,为后续的大数据处理工作打下基础。
评论列表