三台虚拟机搭建hadoop，hadoop集群搭建四台虚拟机，Hadoop集群在四台虚拟机上的搭建与优化实践

欧气 2024年10月10日 10:05 0 0

本文介绍了在虚拟机上搭建Hadoop集群的过程，包括三台虚拟机搭建单个Hadoop以及四台虚拟机搭建Hadoop集群的实践，并分享了集群搭建与优化的技巧。

本文目录导读：

环境准备
集群搭建步骤
集群优化

随着大数据时代的到来，Hadoop作为一款开源的大数据处理框架，在处理海量数据方面具有显著优势，本文将详细介绍在四台虚拟机上搭建Hadoop集群的步骤和优化方法，旨在帮助读者快速掌握Hadoop集群的搭建与优化技巧。

环境准备

1、操作系统：选择Linux操作系统，如CentOS 7。

2、虚拟机：使用VMware Workstation等虚拟机软件创建四台虚拟机。

3、Hadoop版本：选择合适的Hadoop版本，如Hadoop 3.3.4。

三台虚拟机搭建hadoop，hadoop集群搭建四台虚拟机，Hadoop集群在四台虚拟机上的搭建与优化实践

图片来源于网络，如有侵权联系删除

4、JDK版本：选择合适的JDK版本，如JDK 1.8。

集群搭建步骤

1、安装操作系统

在四台虚拟机上分别安装Linux操作系统，配置网络，并确保虚拟机之间可以相互通信。

2、配置SSH免密登录

在四台虚拟机之间配置SSH免密登录，方便后续操作。

在每台虚拟机上执行以下命令
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

3、安装JDK

在四台虚拟机上安装JDK，配置环境变量。

下载JDK安装包，解压并配置环境变量
tar -xvf jdk-8u251-linux-x64.tar.gz
export JAVA_HOME=/usr/local/jdk1.8.0_251
export PATH=$PATH:$JAVA_HOME/bin

4、安装Hadoop

在四台虚拟机上安装Hadoop，配置环境变量。

下载Hadoop安装包，解压并配置环境变量
tar -xvf hadoop-3.3.4.tar.gz
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5、配置Hadoop集群

（1）配置hadoop-env.sh

在$HADOOP_HOME/etc/hadoop目录下，编辑hadoop-env.sh文件，配置JDK路径。

三台虚拟机搭建hadoop，hadoop集群搭建四台虚拟机，Hadoop集群在四台虚拟机上的搭建与优化实践

图片来源于网络，如有侵权联系删除

export JAVA_HOME=/usr/local/jdk1.8.0_251

（2）配置core-site.xml

在$HADOOP_HOME/etc/hadoop目录下，编辑core-site.xml文件，配置集群名称、HDFS存储路径等。

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>

（3）配置hdfs-site.xml

在$HADOOP_HOME/etc/hadoop目录下，编辑hdfs-site.xml文件，配置副本因子、数据块大小等。

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>128M</value>
    </property>
</configuration>

（4）配置yarn-site.xml

在$HADOOP_HOME/etc/hadoop目录下，编辑yarn-site.xml文件，配置资源管理器、节点管理等。

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

（5）配置mapred-site.xml

在$HADOOP_HOME/etc/hadoop目录下，编辑mapred-site.xml文件，配置历史服务器、作业日志等。

<configuration>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>

6、格式化HDFS

在master节点上执行以下命令，格式化HDFS。