虚拟机搭建hadoop集群的步骤，从零开始，详细解析虚拟机搭建Hadoop集群的完整步骤

欧气 2024年10月27日 10:28 0 0

本文目录导读：

图片来源于网络，如有侵权联系删除

准备工作
配置虚拟机
安装Hadoop
格式化NameNode
启动Hadoop集群

准备工作

1、确定操作系统：选择Linux操作系统作为Hadoop集群的运行环境，推荐使用CentOS 7。

2、安装VMware Workstation：在虚拟机软件中，VMware Workstation是一款功能强大、性能稳定的虚拟机软件。

3、创建虚拟机：在VMware Workstation中创建三台虚拟机，分别为NameNode、DataNode和SecondaryNameNode。

4、配置虚拟机网络：确保三台虚拟机可以互相通信，设置网络类型为桥接模式。

5、安装Java环境：Hadoop依赖于Java环境，因此需要为虚拟机安装Java，推荐使用OpenJDK 8。

配置虚拟机

1、配置NameNode虚拟机：

（1）修改主机名：在终端输入以下命令修改主机名为NameNode。

hostnamectl set-hostname NameNode

（2）修改hosts文件：在NameNode虚拟机的/etc/hosts文件中添加以下内容，确保可以解析其他虚拟机的主机名。

192、168.1.100 NameNode
192、168.1.101 DataNode
192、168.1.102 SecondaryNameNode

（3）关闭防火墙：在终端输入以下命令关闭防火墙。

systemctl stop firewalld
systemctl disable firewalld

2、配置DataNode虚拟机：

（1）修改主机名：在终端输入以下命令修改主机名为DataNode。

虚拟机搭建hadoop集群的步骤，从零开始，详细解析虚拟机搭建Hadoop集群的完整步骤

图片来源于网络，如有侵权联系删除

hostnamectl set-hostname DataNode

（2）修改hosts文件：在DataNode虚拟机的/etc/hosts文件中添加以下内容，确保可以解析其他虚拟机的主机名。

192、168.1.100 NameNode
192、168.1.101 DataNode
192、168.1.102 SecondaryNameNode

（3）关闭防火墙：在终端输入以下命令关闭防火墙。

systemctl stop firewalld
systemctl disable firewalld

3、配置SecondaryNameNode虚拟机：

（1）修改主机名：在终端输入以下命令修改主机名为SecondaryNameNode。

hostnamectl set-hostname SecondaryNameNode

（2）修改hosts文件：在SecondaryNameNode虚拟机的/etc/hosts文件中添加以下内容，确保可以解析其他虚拟机的主机名。

192、168.1.100 NameNode
192、168.1.101 DataNode
192、168.1.102 SecondaryNameNode

（3）关闭防火墙：在终端输入以下命令关闭防火墙。

systemctl stop firewalld
systemctl disable firewalld

安装Hadoop

1、下载Hadoop：从Hadoop官网下载适合Linux操作系统的Hadoop版本，例如Hadoop-3.3.4.tar.gz。

2、解压Hadoop：在NameNode虚拟机的根目录下，解压下载的Hadoop压缩包。

3、配置环境变量：在NameNode虚拟机的/etc/profile文件中添加以下内容，使Hadoop命令在终端中可以直接使用。

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4、配置Hadoop配置文件：

（1）修改/opt/hadoop/etc/hadoop/core-site.xml文件，添加以下内容：

虚拟机搭建hadoop集群的步骤，从零开始，详细解析虚拟机搭建Hadoop集群的完整步骤

图片来源于网络，如有侵权联系删除

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://NameNode:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/tmp</value>
  </property>
</configuration>

（2）修改/opt/hadoop/etc/hadoop/hdfs-site.xml文件，添加以下内容：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/hdfs/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/hdfs/datanode</value>
  </property>
</configuration>

（3）修改/opt/hadoop/etc/hadoop/yarn-site.xml文件，添加以下内容：

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

格式化NameNode

在NameNode虚拟机的终端中，执行以下命令格式化NameNode：

hdfs namenode -format

启动Hadoop集群

1、启动NameNode：

start-dfs.sh

2、启动SecondaryNameNode：

start-secondarynamenode.sh

3、启动YARN：

start-yarn.sh

4、查看Hadoop进程：

在NameNode虚拟机的终端中，执行以下命令查看Hadoop进程：

jps

Hadoop集群已成功搭建，可以开始使用Hadoop进行数据处理了。

标签： #虚拟机搭建hadoop