搭建hadoop伪分布式环境实验报告，Hadoop伪分布式环境搭建实验报告及性能分析

欧气 2024年11月08日 16:53 0 0

本文目录导读：

实验背景
实验目的
实验环境
实验步骤
实验结果与分析

实验背景

随着大数据时代的到来，数据规模呈指数级增长，传统的数据处理方式已经无法满足需求，Hadoop作为一款分布式计算框架，在处理海量数据方面具有显著优势，本文旨在通过搭建Hadoop伪分布式环境，实现大数据的分布式存储和计算。

搭建hadoop伪分布式环境实验报告，Hadoop伪分布式环境搭建实验报告及性能分析

图片来源于网络，如有侵权联系删除

实验目的

1、掌握Hadoop伪分布式环境的搭建方法；

2、了解Hadoop集群各个组件的功能及作用；

3、熟悉Hadoop分布式文件系统（HDFS）和YARN的工作原理；

4、分析Hadoop伪分布式环境在处理大数据时的性能表现。

实验环境

1、操作系统：CentOS 7.4

2、Hadoop版本：Hadoop 3.2.1

3、内存：8GB

4、CPU：2核

实验步骤

1、准备工作

（1）下载Hadoop安装包：从Apache Hadoop官网下载Hadoop 3.2.1版本的安装包。

（2）解压安装包：将下载的Hadoop安装包解压到指定目录，例如/opt/hadoop。

搭建hadoop伪分布式环境实验报告，Hadoop伪分布式环境搭建实验报告及性能分析

图片来源于网络，如有侵权联系删除

（3）配置环境变量：编辑~/.bash_profile文件，添加以下内容：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin

2、配置Hadoop

（1）修改/opt/hadoop/etc/hadoop/hadoop-env.sh文件，设置Java安装路径：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.272.b10-0.el7_9.x86_64

（2）修改/opt/hadoop/etc/hadoop/core-site.xml文件，设置HDFS的存储目录：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoop/data</value>
    </property>
</configuration>

（3）修改/opt/hadoop/etc/hadoop/hdfs-site.xml文件，设置HDFS的副本数量：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

（4）修改/opt/hadoop/etc/hadoop/yarn-site.xml文件，设置YARN的 ResourceManager 和 NodeManager 的地址：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
    <property>
        <name>yarn.nodemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

3、格式化HDFS

在Hadoop命令行中执行以下命令，格式化HDFS：