hadoop分布式集群搭建实验报告，hadoop分布式集群怎么搭建

欧气 2024年09月30日 16:41 2 0

《Hadoop分布式集群搭建全攻略》

一、引言

随着大数据时代的到来，Hadoop作为一个开源的分布式计算框架，被广泛应用于数据存储和处理，搭建Hadoop分布式集群是深入学习和应用Hadoop的基础，本实验将详细介绍如何搭建Hadoop分布式集群。

hadoop分布式集群搭建实验报告，hadoop分布式集群怎么搭建

图片来源于网络，如有侵权联系删除

二、实验环境准备

1、硬件环境

- 需要至少三台物理机或者虚拟机，本实验采用三台虚拟机，配置为：2核CPU、4GB内存、50GB硬盘空间。

2、软件环境

- 操作系统：CentOS 7，确保每台机器都安装了CentOS 7操作系统，并进行了基本的网络配置，设置静态IP地址，192.168.1.101、192.168.1.102、192.168.1.103。

- 安装JDK：Hadoop运行依赖于Java环境，在每台机器上下载并安装JDK 8，配置好Java环境变量，在/etc/profile 文件中添加如下内容：

```bash

export JAVA_HOME=/usr/java/jdk1.8.0_291

export PATH=$PATH:$JAVA_HOME/bin

```

- 关闭防火墙和SELinux：为了避免网络通信受阻，在每台机器上关闭防火墙和SELinux，关闭防火墙命令：systemctl stop firewalld，永久关闭防火墙：systemctl disable firewalld；关闭SELinux：编辑/etc/selinux/config 文件，将SELINUX=enforcing 改为SELINUX=disabled，然后重启系统。

三、Hadoop安装与配置

1、下载与解压Hadoop

- 在其中一台机器（例如192.168.1.101）上下载Hadoop二进制包，本实验采用Hadoop 3.3.1版本，下载完成后，解压到/usr/local 目录下，命令为：tar -zxvf hadoop - 3.3.1.tar.gz -C /usr/local/，并将解压后的文件夹重命名为hadoop。

2、配置Hadoop核心文件

hadoop - env.sh：编辑/usr/local/hadoop/etc/hadoop/hadoop - env.sh 文件，设置JAVA_HOME 变量，确保其指向正确的JDK安装路径。

core - site.xml：主要配置Hadoop的核心参数，如文件系统的默认名称等，在/usr/local/hadoop/etc/hadoop/core - site.xml 中添加如下内容：

```xml

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

</configuration>

```

这里假设将192.168.1.101这台机器作为主节点（master）。

hadoop分布式集群搭建实验报告，hadoop分布式集群怎么搭建

图片来源于网络，如有侵权联系删除

hdfs - site.xml：用于配置HDFS相关参数，设置副本数、数据块大小等，添加如下内容：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/data/hadoop/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/data/hadoop/datanode</value>

</property>

</configuration>

```

mapred - site.xml：配置MapReduce相关参数，如设置MapReduce的运行框架为YARN等。

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

hadoop分布式集群搭建实验报告，hadoop分布式集群怎么搭建

图片来源于网络，如有侵权联系删除

yarn - site.xml：用于配置YARN资源管理器等相关参数。

```xml

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

3、配置集群节点信息

- 在/usr/local/hadoop/etc/hadoop/slaves 文件中，添加从节点的主机名或者IP地址，本实验中为192.168.1.102和192.168.1.103。

四、集群部署与启动

1、将Hadoop安装包分发到其他节点

- 使用scp 命令将/usr/local/hadoop 目录下的所有文件分发到其他两台从节点机器上，从192.168.1.101分发到192.168.1.102的命令为：scp -r /usr/local/hadoop root@192.168.1.102:/usr/local/。

2、启动集群

- 在主节点（192.168.1.101）上，首先格式化HDFS文件系统，命令为：/usr/local/hadoop/bin/hdfs namenode - format，这一步操作只需在首次搭建集群时执行一次。

- 启动Hadoop集群，执行命令：/usr/local/hadoop/sbin/start - all.sh。

- 验证集群是否启动成功，可以通过浏览器访问Hadoop的Web界面，访问HDFS的Web界面：http://192.168.1.101:9870，访问YARN的Web界面：http://192.168.1.101:8088。

五、结论

通过以上步骤，成功搭建了一个Hadoop分布式集群，在搭建过程中，需要注意网络配置、软件环境的一致性以及Hadoop各个配置文件的正确设置，搭建好的集群可以用于后续的大数据存储、处理和分析等操作，为深入学习和应用Hadoop技术奠定了基础，在实际应用中，可以根据具体的需求进一步优化集群的配置，如调整资源分配、优化存储策略等。

标签： #hadoop #分布式集群 #搭建 #实验报告