虚拟机搭建hadoop集群，hadoop搭建虚拟机

欧气 2024年10月01日 12:06 3 0

本文目录导读：

环境准备
安装JDK
安装Hadoop
启动Hadoop集群
测试Hadoop集群

《基于虚拟机搭建Hadoop集群的详细教程》

Hadoop是一个开源的分布式计算框架，广泛应用于大数据处理领域，在学习和测试Hadoop相关应用时，通过在虚拟机中搭建Hadoop集群是一种便捷、低成本的方式，本文将详细介绍如何基于虚拟机搭建Hadoop集群。

环境准备

（一）虚拟机软件选择

虚拟机搭建hadoop集群，hadoop搭建虚拟机

图片来源于网络，如有侵权联系删除

我们可以选择VirtualBox或者VMware Workstation等虚拟机软件，这里以VMware Workstation为例进行介绍。

（二）操作系统安装

1、在VMware Workstation中创建新的虚拟机，选择合适的操作系统镜像，如CentOS，在创建过程中，根据需求分配适当的内存、磁盘空间和CPU核心数，对于简单的测试环境，可以分配2GB内存、20GB磁盘空间和1 - 2个CPU核心。

2、安装CentOS操作系统，按照安装向导完成基本的系统配置，包括设置 root 密码、网络配置等。

（三）网络配置

1、选择合适的网络模式，如果希望虚拟机能够与宿主机以及外部网络通信，可以选择桥接模式；如果只是在虚拟机内部进行通信，可以选择仅主机模式或者NAT模式，这里推荐桥接模式。

2、在CentOS系统中，配置静态IP地址，编辑网络配置文件（如/etc/sysconfig/network - scripts/ifcfg - ens33，具体文件名可能因网络接口不同而有所差异），设置IP地址、子网掩码、网关和Dns服务器等信息。

安装JDK

1、从Oracle官方网站下载适用于Linux的JDK安装包（如jdk - 8uXXX - linux - x64.tar.gz）。

2、将下载的安装包上传到CentOS虚拟机中，可以使用工具如WinSCP。

3、在虚拟机中解压安装包到指定目录，例如/usr/java，然后设置环境变量，编辑/etc/profile 文件，添加如下内容：

虚拟机搭建hadoop集群，hadoop搭建虚拟机

图片来源于网络，如有侵权联系删除

export JAVA_HOME = /usr/java/jdk1.8.0_XXX
export PATH = $PATH:$JAVA_HOME/bin

保存文件后，执行source /etc/profile 使环境变量生效。

安装Hadoop

1、从Hadoop官方网站下载稳定版本的Hadoop安装包（如hadoop - 3.3.0.tar.gz）。

2、同样将安装包上传到CentOS虚拟机中，并解压到指定目录，如/usr/local/hadoop。

3、配置Hadoop环境变量，编辑/etc/profile 文件，添加以下内容：

export HADOOP_HOME = /usr/local/hadoop
export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行source /etc/profile 使环境变量生效。

4、修改Hadoop配置文件，Hadoop的主要配置文件位于$HADOOP_HOME/etc/hadoop 目录下。

core - site.xml：配置Hadoop的核心参数，

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

master 为集群中的主节点主机名，可以根据实际情况修改。

hdfs - site.xml：用于配置HDFS相关参数，如副本数等：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/dfs/data</value>
    </property>
</configuration>

mapred - site.xml：配置MapReduce相关参数：

虚拟机搭建hadoop集群，hadoop搭建虚拟机

图片来源于网络，如有侵权联系删除

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn - site.xml：配置YARN相关参数：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux - services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5、配置集群节点，在/etc/hosts 文件中添加集群中所有节点的IP地址和主机名映射关系，如果有三个节点，分别是master、slave1 和slave2，则添加如下内容：

192、168.1.100 master
192、168.1.101 slave1
192、168.1.102 slave2

6、将配置好的Hadoop安装目录复制到其他节点，可以使用scp 命令进行复制，

scp -r /usr/local/hadoop root@slave1:/usr/local/
scp -r /usr/local/hadoop root@slave2:/usr/local/

启动Hadoop集群

1、在主节点（master）上，格式化HDFS文件系统，执行命令：

hdfs namenode - format

2、启动Hadoop集群相关服务，可以使用start - all.sh 命令启动所有服务，包括HDFS的NameNode、DataNode，YARN的ResourceManager和NodeManager等。

3、通过浏览器访问Hadoop的管理界面，访问http://master:9870（HDFS的Web界面）和http://master:8088（YARN的Web界面），可以查看集群的状态、节点信息、任务运行情况等。

测试Hadoop集群

1、运行示例MapReduce程序，运行hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar wordcount /input /output，其中/input 为输入文件所在目录（可以提前在HDFS中创建并上传文件），/output 为输出结果目录。

2、查看运行结果，可以通过命令行查看输出文件内容，或者在HDFS的Web界面查看输出目录下的文件。

通过以上步骤，我们成功地在虚拟机中搭建了Hadoop集群，在搭建过程中，需要注意网络配置、软件安装和配置文件的正确设置等环节，这种基于虚拟机的搭建方式方便我们进行Hadoop相关的学习、开发和测试，为进一步深入研究大数据处理技术奠定了基础，在实际应用中，可以根据需求对集群进行扩展和优化，如增加节点数量、调整配置参数等。

标签： #虚拟机 #hadoop #集群 #搭建