虚拟机搭建hadoop集群的步骤，详解虚拟机搭建Hadoop集群的详细步骤及技巧

欧气 2024年11月05日 02:01 0 0

本文目录导读：

图片来源于网络，如有侵权联系删除

概述
搭建环境
搭建步骤
验证Hadoop集群

概述

Hadoop是一个开源的分布式计算框架，它可以将大规模数据集在集群上分布式存储和并行处理，随着大数据时代的到来，Hadoop已成为处理海量数据的重要工具，本文将详细介绍在虚拟机上搭建Hadoop集群的步骤及技巧，帮助读者快速上手Hadoop。

搭建环境

1、操作系统：选择Linux系统，如CentOS、Ubuntu等。

2、虚拟机软件：建议使用VMware Workstation、VirtualBox等。

3、Hadoop版本：本文以Hadoop 3.3.4版本为例。

搭建步骤

1、准备虚拟机

（1）创建虚拟机：在虚拟机软件中创建一个新的虚拟机，选择Linux系统，如CentOS 7。

（2）配置虚拟机：设置虚拟机的CPU、内存、硬盘等资源，确保满足Hadoop集群的运行需求。

2、安装Java环境

（1）下载Java：访问Oracle官网下载Java安装包，选择适合Linux系统的版本。

（2）安装Java：将下载的Java安装包上传到虚拟机，解压后执行以下命令：

虚拟机搭建hadoop集群的步骤，详解虚拟机搭建Hadoop集群的详细步骤及技巧

图片来源于网络，如有侵权联系删除

cd /usr/local/src
tar -zxvf jdk-8u231-linux-x64.tar.gz

（3）配置环境变量：编辑/etc/profile文件，添加以下内容：

export JAVA_HOME=/usr/local/src/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin

（4）使配置生效：执行以下命令：

source /etc/profile

3、安装Hadoop

（1）下载Hadoop：访问Apache Hadoop官网下载适合Linux系统的Hadoop安装包。

（2）安装Hadoop：将下载的Hadoop安装包上传到虚拟机，解压后执行以下命令：

cd /usr/local/src
tar -zxvf hadoop-3.3.4.tar.gz

4、配置Hadoop

（1）修改hadoop-env.sh文件：编辑/usr/local/src/hadoop-3.3.4/etc/hadoop/hadoop-env.sh文件，设置Java环境：

export JAVA_HOME=/usr/local/src/jdk1.8.0_231

（2）修改core-site.xml文件：编辑/usr/local/src/hadoop-3.3.4/etc/hadoop/core-site.xml文件，配置HDFS的存储路径：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/src/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

（3）修改hdfs-site.xml文件：编辑/usr/local/src/hadoop-3.3.4/etc/hadoop/hdfs-site.xml文件，配置HDFS的副本数量：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

（4）修改mapred-site.xml文件：编辑/usr/local/src/hadoop-3.3.4/etc/hadoop/mapred-site.xml文件，配置MapReduce运行模式：

虚拟机搭建hadoop集群的步骤，详解虚拟机搭建Hadoop集群的详细步骤及技巧

图片来源于网络，如有侵权联系删除

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

（5）修改yarn-site.xml文件：编辑/usr/local/src/hadoop-3.3.4/etc/hadoop/yarn-site.xml文件，配置YARN的运行模式：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5、格式化HDFS

在master节点上执行以下命令，格式化HDFS：