搭建hadoop完全分布式集群实验目的，深入剖析Hadoop完全分布式集群搭建，实现高效大数据处理与存储

欧气 2024年10月23日 13:16 0 0

本文目录导读：

实验目的

实验目的

随着大数据时代的到来，Hadoop作为一款开源的大数据处理框架，凭借其分布式存储和计算能力，在各个领域得到了广泛应用，本实验旨在通过搭建Hadoop完全分布式集群，让学生深入了解Hadoop的工作原理，掌握Hadoop集群的搭建过程，从而为以后从事大数据相关工作奠定基础。

1、环境准备

（1）操作系统：Linux系统（如CentOS、Ubuntu等）

搭建hadoop完全分布式集群实验目的，深入剖析Hadoop完全分布式集群搭建，实现高效大数据处理与存储

图片来源于网络，如有侵权联系删除

（2）Java环境：JDK 1.8及以上版本

（3）Hadoop版本：选择稳定版本，如Hadoop 3.x

2、集群搭建

（1）主机配置

准备3台服务器，分别命名为Node1、Node2和Node3，其中Node1作为NameNode，Node2和Node3作为DataNode。

（2）软件安装

① 安装JDK

在每台服务器上，通过以下命令安装JDK：

sudo yum install -y java-1.8.0-openjdk

② 安装Hadoop

在每台服务器上，通过以下命令下载并解压Hadoop：

sudo yum install -y wget
wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -zxvf hadoop-3.3.4.tar.gz -C /opt/hadoop

（3）环境变量配置

在每台服务器的/etc/profile 文件中添加以下内容：

搭建hadoop完全分布式集群实验目的，深入剖析Hadoop完全分布式集群搭建，实现高效大数据处理与存储

图片来源于网络，如有侵权联系删除

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后执行source /etc/profile 使配置生效。

（4）配置文件修改

① 修改hadoop-env.sh

在NameNode和DataNode上，找到hadoop-env.sh 文件，修改以下内容：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

② 修改core-site.xml

在NameNode和DataNode上，找到core-site.xml 文件，添加以下内容：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://node1:8020</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/hadoop/data/tmp</value>
  </property>
</configuration>

③ 修改hdfs-site.xml

在NameNode和DataNode上，找到hdfs-site.xml 文件，添加以下内容：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop/data/hdfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/opt/hadoop/data/hdfs/data</value>
  </property>
</configuration>

④ 修改mapred-site.xml

在每台服务器上，找到mapred-site.xml 文件，添加以下内容：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

⑤ 修改yarn-site.xml

在每台服务器上，找到yarn-site.xml 文件，添加以下内容：

搭建hadoop完全分布式集群实验目的，深入剖析Hadoop完全分布式集群搭建，实现高效大数据处理与存储

图片来源于网络，如有侵权联系删除

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>node1</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

3、集群启动

（1）格式化NameNode

在NameNode上，通过以下命令格式化NameNode：