hadoop分布式环境搭建实验报告，Hadoop分布式集群环境搭建实验报告

欧气 2024年11月11日 01:19 0 0

本文目录导读：

图片来源于网络，如有侵权联系删除

实验背景
实验目的
实验环境
实验步骤

实验背景

随着大数据时代的到来，对大数据处理和分析的需求日益增长，Hadoop作为一款开源的大数据处理框架，在分布式存储和计算方面具有显著优势，为了更好地掌握Hadoop技术，我们进行了Hadoop分布式集群环境搭建实验。

实验目的

1、了解Hadoop分布式存储和计算原理；

2、掌握Hadoop分布式集群搭建流程；

3、熟悉Hadoop集群的日常维护和管理。

实验环境

1、操作系统：CentOS 7.2

2、Hadoop版本：Hadoop 3.2.1

3、虚拟机软件：VMware Workstation 15

4、服务器数量：3台

实验步骤

1、准备工作

（1）下载Hadoop 3.2.1安装包：https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

（2）配置虚拟机：在VMware Workstation中创建3台虚拟机，分别命名为node1、node2和node3，配置CPU、内存和硬盘等资源。

（3）配置网络：将3台虚拟机连接到同一网络，设置IP地址和子网掩码。

2、配置主机名

（1）在node1虚拟机中，将主机名修改为hadoop-master：

vi /etc/hostname

（2）在node2虚拟机中，将主机名修改为hadoop-slave1：

vi /etc/hostname

（3）在node3虚拟机中，将主机名修改为hadoop-slave2：

hadoop分布式环境搭建实验报告，Hadoop分布式集群环境搭建实验报告

图片来源于网络，如有侵权联系删除

vi /etc/hostname

3、配置hosts文件

（1）在node1虚拟机中，编辑hosts文件：

vi /etc/hosts

添加以下内容：

127、0.0.1 hadoop-master

（2）在node2虚拟机中，编辑hosts文件：

vi /etc/hosts

添加以下内容：

127、0.0.1 hadoop-slave1

（3）在node3虚拟机中，编辑hosts文件：

vi /etc/hosts

添加以下内容：

127、0.0.1 hadoop-slave2

4、配置SSH免密登录

（1）在node1虚拟机中，生成密钥：

ssh-keygen -t rsa

（2）将node1虚拟机的公钥复制到node2和node3虚拟机的~/.ssh/authorized_keys文件中：

ssh-copy-id hadoop-slave1
ssh-copy-id hadoop-slave2

5、配置Hadoop环境变量

（1）在node1、node2和node3虚拟机的~/.bash_profile文件中，添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

（2）使环境变量生效：

source ~/.bash_profile

6、解压Hadoop安装包并配置

（1）在node1虚拟机中，将Hadoop安装包解压到/usr/local目录下：

tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local

（2）修改Hadoop配置文件：

hadoop分布式环境搭建实验报告，Hadoop分布式集群环境搭建实验报告

图片来源于网络，如有侵权联系删除

（a）在hadoop-3.2.1目录下，找到etc/hadoop/core-site.xml文件，修改以下内容：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop-master:9000</value>
  </property>
</configuration>

（b）在hadoop-3.2.1目录下，找到etc/hadoop/hdfs-site.xml文件，修改以下内容：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
</configuration>

（c）在hadoop-3.2.1目录下，找到etc/hadoop/mapred-site.xml文件，修改以下内容：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

（d）在hadoop-3.2.1目录下，找到etc/hadoop/yarn-site.xml文件，修改以下内容：

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop-master</value>
  </property>
</configuration>

7、格式化HDFS文件系统

hdfs namenode -format

8、启动Hadoop集群

（1）在node1虚拟机中，启动NameNode：

start-dfs.sh

（2）在node1虚拟机中，启动ResourceManager：

start-yarn.sh

（3）在node1虚拟机中，启动HistoryServer：

mr-jobhistory-daemon.sh start historyserver

（4）在node2和node3虚拟机中，启动NodeManager：

start-yarn.sh

9、验证Hadoop集群

在浏览器中访问http://hadoop-master:50070/，查看HDFS文件系统；在浏览器中访问http://hadoop-master:8088/，查看YARN资源管理器。

通过本次实验，我们成功搭建了一个Hadoop分布式集群环境，在实验过程中，我们学习了Hadoop的分布式存储和计算原理，掌握了Hadoop分布式集群搭建流程，熟悉了Hadoop集群的日常维护和管理，这将为我们后续学习大数据技术奠定基础。

标签： #hadoop分布式集群搭建实验报告