黑狐家游戏

搭建hadoop伪分布式环境实验报告,hadoop集群伪分布式搭建实验报告

欧气 2 0

《Hadoop集群伪分布式搭建实验报告》

一、实验目的

搭建hadoop伪分布式环境实验报告,hadoop集群伪分布式搭建实验报告

图片来源于网络,如有侵权联系删除

本实验旨在搭建Hadoop伪分布式环境,深入理解Hadoop的基本架构、运行原理以及相关组件的交互方式,通过实际操作,掌握Hadoop的安装、配置和基本使用方法,为后续进一步学习大数据处理技术奠定基础。

二、实验环境

1、操作系统

- Ubuntu 18.04 LTS(64 - bit)。

2、软件版本

- Hadoop 3.3.0。

- Java JDK 1.8。

三、实验步骤

1、安装Java JDK

- 从Oracle官方网站下载Java JDK 1.8安装包。

- 使用命令sudo dpkg -i jdk - 8uXXX - linux - x64.bin(XXX为具体版本号)进行安装。

- 配置Java环境变量,编辑~/.bashrc文件,添加export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_XXX(XXX为实际安装的版本号)和export PATH=$PATH:$JAVA_HOME/bin,然后使用source ~/.bashrc使配置生效。

2、安装Hadoop

- 从Hadoop官方网站下载Hadoop 3.3.0的二进制压缩包。

搭建hadoop伪分布式环境实验报告,hadoop集群伪分布式搭建实验报告

图片来源于网络,如有侵权联系删除

- 将压缩包解压到指定目录,例如/usr/local/hadoop,使用命令tar -zxvf hadoop - 3.3.0.tar.gz -C /usr/local/

3、配置Hadoop环境变量

- 编辑~/.bashrc文件,添加export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin,再执行source ~/.bashrc

4、配置Hadoop伪分布式模式

- 进入$HADOOP_HOME/etc/hadoop目录。

- 编辑core - site.xml文件,添加以下配置:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

- 编辑hdfs - site.xml如下:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
    </property>
</configuration>

- 编辑mapred - site.xml文件(如果不存在则从mapred - site.xml.template复制),添加:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

- 编辑yarn - site.xml文件,配置如下:

<configuration>
    <property>
        <name>yarn.nodemanager.aux - services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

5、格式化HDFS文件系统

- 执行命令hdfs namenode - format

6、启动Hadoop服务

- 首先启动HDFS,使用命令start - dfs.sh

- 然后启动YARN,使用命令start - yarn.sh

搭建hadoop伪分布式环境实验报告,hadoop集群伪分布式搭建实验报告

图片来源于网络,如有侵权联系删除

四、实验结果验证

1、检查HDFS状态

- 使用命令hdfs dfs -ls /,可以看到HDFS根目录下的文件和目录信息。

2、查看YARN状态

- 通过浏览器访问http://localhost:8088,可以查看YARN的资源管理界面,包括正在运行的任务、节点状态等信息。

五、实验总结

1、遇到的问题及解决方法

- 在格式化HDFS时,如果之前已经格式化过,再次格式化可能会导致数据丢失,解决方法是谨慎操作,确保数据备份或者在新的测试环境下进行格式化。

- 在启动服务过程中,可能会遇到端口被占用的情况,通过查看端口占用进程并杀死相关进程(使用lsof -i:port查找进程,kill - 9 pid杀死进程,其中port为被占用端口,pid为进程ID)来解决。

2、实验收获

- 通过本次实验,深入理解了Hadoop伪分布式环境的搭建过程,包括各个配置文件的作用,掌握了如何启动和管理Hadoop的基本服务,对Hadoop的架构有了更直观的认识,这为后续学习Hadoop集群的优化、大数据处理任务的开发等提供了坚实的基础。

标签: #hadoop #伪分布式 #搭建 #实验报告

黑狐家游戏
  • 评论列表

留言评论