搭建hadoop伪分布式环境实验报告，hadoop集群伪分布式搭建实验报告

欧气 2024年09月30日 19:34 2 0

《Hadoop集群伪分布式搭建实验报告》

一、实验目的

图片来源于网络，如有侵权联系删除

本实验旨在搭建Hadoop伪分布式环境，深入理解Hadoop的基本架构、运行原理以及相关组件的交互方式，通过实际操作，掌握Hadoop的安装、配置和基本使用方法，为后续进一步学习大数据处理技术奠定基础。

二、实验环境

1、操作系统

- Ubuntu 18.04 LTS（64 - bit）。

2、软件版本

- Hadoop 3.3.0。

- Java JDK 1.8。

三、实验步骤

1、安装Java JDK

- 从Oracle官方网站下载Java JDK 1.8安装包。

- 使用命令sudo dpkg -i jdk - 8uXXX - linux - x64.bin（XXX为具体版本号）进行安装。

- 配置Java环境变量，编辑~/.bashrc文件，添加export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_XXX（XXX为实际安装的版本号）和export PATH=$PATH:$JAVA_HOME/bin，然后使用source ~/.bashrc使配置生效。

2、安装Hadoop

- 从Hadoop官方网站下载Hadoop 3.3.0的二进制压缩包。

搭建hadoop伪分布式环境实验报告，hadoop集群伪分布式搭建实验报告

图片来源于网络，如有侵权联系删除

- 将压缩包解压到指定目录，例如/usr/local/hadoop，使用命令tar -zxvf hadoop - 3.3.0.tar.gz -C /usr/local/。

3、配置Hadoop环境变量

- 编辑~/.bashrc文件，添加export HADOOP_HOME=/usr/local/hadoop和export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin，再执行source ~/.bashrc。

4、配置Hadoop伪分布式模式

- 进入$HADOOP_HOME/etc/hadoop目录。

- 编辑core - site.xml文件，添加以下配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

- 编辑hdfs - site.xml如下：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
    </property>
</configuration>

- 编辑mapred - site.xml文件（如果不存在则从mapred - site.xml.template复制），添加：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

- 编辑yarn - site.xml文件，配置如下：

<configuration>
    <property>
        <name>yarn.nodemanager.aux - services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

5、格式化HDFS文件系统

- 执行命令hdfs namenode - format。

6、启动Hadoop服务

- 首先启动HDFS，使用命令start - dfs.sh。

- 然后启动YARN，使用命令start - yarn.sh。

搭建hadoop伪分布式环境实验报告，hadoop集群伪分布式搭建实验报告

图片来源于网络，如有侵权联系删除

四、实验结果验证

1、检查HDFS状态

- 使用命令hdfs dfs -ls /，可以看到HDFS根目录下的文件和目录信息。

2、查看YARN状态

- 通过浏览器访问http://localhost:8088，可以查看YARN的资源管理界面，包括正在运行的任务、节点状态等信息。