搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建全攻略，从安装到环境配置

欧气 2024年10月23日 01:38 0 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
软件安装
配置文件修改
集群启动

随着大数据时代的到来，Hadoop作为一款开源的分布式计算框架，已成为处理海量数据的重要工具，本文将详细讲解Hadoop伪分布式集群的搭建过程，包括环境准备、软件安装、配置文件修改、集群启动等步骤。

环境准备

1、操作系统：本文以CentOS 7.5为例，其他Linux发行版也可参考。

2、硬件环境：CPU 2核以上，内存4GB以上，硬盘空间10GB以上。

3、软件环境：

- JDK：Hadoop需要JDK 1.8或更高版本，本文以JDK 1.8为例。

- SSH：用于集群节点间免密登录。

软件安装

1、安装JDK

（1）下载JDK安装包：访问Oracle官网下载JDK 1.8安装包，选择Linux版本。

（2）上传安装包：使用SCP或Xftp等工具将安装包上传至服务器。

（3）解压安装包：在根目录下执行以下命令：

```

tar -zxvf jdk-8u231-linux-x64.tar.gz

```

（4）配置环境变量：编辑~/.bash_profile文件，添加以下内容：

```

export JAVA_HOME=/usr/local/jdk1.8.0_231

export PATH=$PATH:$JAVA_HOME/bin

```

（5）使配置生效：执行以下命令：

```

source ~/.bash_profile

```

2、安装SSH

（1）安装SSH服务：执行以下命令：

```

yum install openssh-server

```

（2）启动SSH服务：执行以下命令：

```

systemctl start sshd

```

（3）设置SSH服务开机自启：执行以下命令：

```

systemctl enable sshd

```

3、安装Hadoop

（1）下载Hadoop安装包：访问Apache Hadoop官网下载Hadoop 3.3.4安装包。

（2）上传安装包：使用SCP或Xftp等工具将安装包上传至服务器。

（3）解压安装包：在根目录下执行以下命令：

```

tar -zxvf hadoop-3.3.4.tar.gz

```

（4）配置环境变量：编辑~/.bash_profile文件，添加以下内容：

```

搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建全攻略，从安装到环境配置

图片来源于网络，如有侵权联系删除

export HADOOP_HOME=/usr/local/hadoop-3.3.4

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

```

（5）使配置生效：执行以下命令：

```

source ~/.bash_profile

```

配置文件修改

1、修改core-site.xml文件：在$HADOOP_HOME/etc/hadoop目录下，将以下内容添加到core-site.xml文件中：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop-3.3.4/tmp</value>

</property>

</configuration>

```

2、修改hdfs-site.xml文件：在$HADOOP_HOME/etc/hadoop目录下，将以下内容添加到hdfs-site.xml文件中：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop-3.3.4/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop-3.3.4/hdfs/datanode</value>

</property>

</configuration>

```

3、修改mapred-site.xml文件：在$HADOOP_HOME/etc/hadoop目录下，将以下内容添加到mapred-site.xml文件中：

```xml

<name>mapreduce.framework.name</name>

搭建hadoop伪分布式环境步骤，Hadoop伪分布式集群搭建全攻略，从安装到环境配置

图片来源于网络，如有侵权联系删除

</property>

</configuration>

```

4、修改yarn-site.xml文件：在$HADOOP_HOME/etc/hadoop目录下，将以下内容添加到yarn-site.xml文件中：

```xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hosts</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

</configuration>

```

集群启动

1、格式化NameNode：执行以下命令，初始化HDFS文件系统：

```

hdfs namenode -format

```

2、启动HDFS服务：执行以下命令：

```

sbin/start-dfs.sh

```

3、启动YARN服务：执行以下命令：

```

sbin/start-yarn.sh

```

4、启动ResourceManager：执行以下命令：

```

sbin/yarn-daemon.sh start resourcemanager

```

5、启动NodeManager：执行以下命令：

```

sbin/yarn-daemon.sh start nodemanager

```

本文详细讲解了Hadoop伪分布式集群的搭建过程，包括环境准备、软件安装、配置文件修改、集群启动等步骤，通过本文的指导，您应该能够成功搭建一个Hadoop伪分布式环境，为后续的大数据处理工作打下基础。

标签： #配置开发环境 - hadoop安装与伪分布式集群搭建研究