hadoop 伪分布式，hadoop集群伪分布式搭建实验报告

欧气 2024年09月27日 20:08 4 0

《Hadoop 伪分布式搭建实验报告：探索分布式计算的基石》

一、引言

随着大数据时代的到来，分布式计算技术变得越来越重要，Hadoop 作为一个开源的分布式计算框架，被广泛应用于大规模数据处理，本实验报告将详细介绍 hadoop 集群伪分布式搭建的过程，包括环境准备、安装配置、启动与验证等步骤，通过实际操作，深入理解 hadoop 分布式计算的原理和架构，为进一步学习和应用 hadoop 技术打下坚实的基础。

二、实验环境

（一）操作系统

本次实验使用的操作系统为 CentOS 7.6。

（二）JDK 版本

安装了 JDK 1.8.0_292。

（三）Hadoop 版本

选择了 hadoop-3.2.1 版本。

三、实验步骤

（一）环境准备

1、安装 JDK

下载 JDK 安装包，并按照安装向导进行安装，安装完成后，配置环境变量，将 JAVA_HOME 指向 JDK 的安装目录。

2、下载 Hadoop

从 Hadoop 官方网站下载 hadoop-3.2.1 版本的 tar.gz 压缩包，并将其解压到指定目录。

（二）配置 Hadoop

1、配置 core-site.xml

打开 core-site.xml 文件，添加以下配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

2、配置 hdfs-site.xml

打开 hdfs-site.xml 文件，添加以下配置：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

3、配置 mapred-site.xml

打开 mapred-site.xml 文件，添加以下配置：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4、配置 yarn-site.xml

打开 yarn-site.xml 文件，添加以下配置：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

5、配置 workers 文件

在 hadoop/etc/hadoop 目录下，创建一个 workers 文件，并在其中添加当前节点的主机名。

（三）启动 Hadoop

1、启动 namenode

在 hadoop/bin 目录下，执行以下命令启动 namenode：

./start-dfs.sh

2、启动 datanode

在 hadoop/bin 目录下，执行以下命令启动 datanode：

./start-dfs.sh

3、启动 resourcemanager

在 hadoop/bin 目录下，执行以下命令启动 resourcemanager：

./start-yarn.sh

4、启动 nodemanager

在 hadoop/bin 目录下，执行以下命令启动 nodemanager：

./start-yarn.sh

（四）验证 Hadoop

1、查看 namenode 状态

在浏览器中输入以下地址查看 namenode 状态：

http://localhost:50070/

2、查看 datanode 状态

在浏览器中输入以下地址查看 datanode 状态：

http://localhost:50075/

3、查看 resourcemanager 状态

在浏览器中输入以下地址查看 resourcemanager 状态：

http://localhost:8088/

4、执行 wordcount 示例

在 hadoop/bin 目录下，执行以下命令执行 wordcount 示例：

hadoop jar hadoop-mapreduce-examples-3.2.1.jar wordcount /input /output

执行完成后，可以在 output 目录下查看 wordcount 的结果。

四、实验总结

通过本次实验，成功搭建了 hadoop 集群的伪分布式环境，并进行了基本的配置和验证，通过实际操作，深入了解了 hadoop 分布式计算的原理和架构，掌握了 hadoop 集群的搭建和管理方法，也遇到了一些问题，如环境变量配置错误、端口被占用等，通过查阅资料和不断尝试，最终解决了这些问题，在今后的学习和实践中，将继续深入学习 hadoop 技术，不断提高自己的技术水平。

仅供参考，你可以根据实际情况进行修改和完善。

标签： #Hadoop #伪分布式 #集群 #实验报告