hadoop伪分布式安装步骤，hadoop伪分布式安装实验总结

欧气 2024年10月02日 00:25 3 0

本文目录导读：

实验目的
实验环境
安装步骤
实验过程中的问题及解决方法

《Hadoop伪分布式安装实验总结》

实验目的

本次实验旨在通过在单节点上模拟分布式环境安装Hadoop，深入理解Hadoop的运行机制、架构以及各个组件之间的交互关系，为进一步学习大数据处理技术奠定基础。

实验环境

操作系统：Ubuntu 18.04

Hadoop版本：3.3.0

hadoop伪分布式安装步骤，hadoop伪分布式安装实验总结

图片来源于网络，如有侵权联系删除

安装步骤

（一）安装Java环境

1、检查系统是否已安装Java

- 使用命令java -version查看，如果未安装则进行安装。

2、安装OpenJDK

- 执行命令sudo apt - get update更新软件包列表。

- 然后sudo apt - get install openjdk - 8 - jdk安装OpenJDK 8。

- 安装完成后，再次使用java -version确认安装成功。

（二）创建Hadoop用户并配置SSH免密登录

1、创建用户

- 使用命令sudo adduser hadoop创建名为hadoop的用户。

- 为新用户设置密码等相关信息。

2、配置SSH免密登录

- 切换到hadoop用户su - hadoop。

- 生成SSH密钥对，执行命令ssh - keygen - t rsa，一路回车默认即可。

- 将公钥添加到授权文件中，执行cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys。

- 使用ssh localhost测试免密登录是否成功。

（三）下载和安装Hadoop

1、下载Hadoop

- 在hadoop用户下，创建一个用于存放Hadoop安装文件的目录，如mkdir /home/hadoop/hadoop - install。

- 进入该目录，使用wget命令从官方网站下载Hadoop 3.3.0的压缩包，如wget https://dlcdn.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz。

2、解压安装

- 解压压缩包tar - zxvf hadoop - 3.3.0.tar.gz。

- 将解压后的文件夹重命名为hadoop，并移动到/home/hadoop/目录下。

（四）配置Hadoop环境变量

1、编辑~/.bashrc文件

- 使用命令vi ~/.bashrc打开文件。

- 在文件末尾添加以下内容：

export HADOOP_HOME = /home/hadoop/hadoop

hadoop伪分布式安装步骤，hadoop伪分布式安装实验总结

图片来源于网络，如有侵权联系删除

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2、使环境变量生效

- 执行命令source ~/.bashrc。

（五）配置Hadoop核心文件

1、编辑core - site.xml

- 在$HADOOP_HOME/etc/hadoop目录下找到core - site.xml文件，使用vi编辑器打开。

- 添加以下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

2、编辑hdfs - site.xml

- 同样在该目录下找到hdfs - site.xml文件并打开。

- 配置如下：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/hadoopdata/namenode</value>

</property>

hadoop伪分布式安装步骤，hadoop伪分布式安装实验总结

图片来源于网络，如有侵权联系删除

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/hadoopdata/datanode</value>

</property>

</configuration>

```

- 创建上述配置中的数据存储目录mkdir - p /home/hadoop/hadoopdata/namenode和mkdir - p /home/hadoop/hadoopdata/datanode。

（六）格式化HDFS并启动Hadoop

1、格式化HDFS

- 执行命令hdfs namenode - format。

2、启动Hadoop

- 启动HDFS，使用命令start - dfs.sh。

- 启动YARN（如果需要运行MapReduce等任务），执行start - yarn.sh。

实验过程中的问题及解决方法

（一）SSH免密登录失败

1、问题现象

- 在执行ssh localhost时，仍然提示输入密码。

2、解决方法

- 检查authorized_keys文件的权限，权限应该为600，使用命令chmod 600 ~/.ssh/authorized_keys进行修改，然后再次测试免密登录。

（二）Hadoop启动失败

1、问题现象

- 在执行start - dfs.sh或start - yarn.sh时，出现各种错误提示，如端口被占用等。

2、解决方法

- 查看错误日志，在$HADOOP_HOME/logs目录下，如果是端口被占用，使用netstat -tlnp查看占用端口的进程，然后使用kill命令杀死该进程，如果是配置文件错误，仔细检查配置文件中的语法和参数设置是否正确。

通过本次Hadoop伪分布式安装实验，我对Hadoop的安装和配置过程有了深入的了解，在安装过程中，每一个步骤都紧密相连，任何一个环节出现问题都可能导致整个安装失败，Java环境的正确安装是Hadoop运行的基础，SSH免密登录的成功配置对于后续Hadoop组件之间的通信至关重要，而Hadoop核心文件的正确配置则直接决定了Hadoop的运行模式和数据存储方式。

在解决实验过程中遇到的问题时，我学会了如何查看错误日志、分析问题的根源以及根据提示进行有效的解决，这不仅提高了我的问题解决能力，也让我对Hadoop的运行机制有了更深刻的认识，当Hadoop启动失败时，通过查看日志发现是端口被占用，这让我意识到在启动Hadoop之前需要确保系统环境的干净和资源的可用性。

通过成功安装和启动Hadoop，我也对Hadoop的架构有了更直观的感受，Hadoop的HDFS和YARN等组件在伪分布式环境下的运行方式，让我初步理解了它们在大数据处理中的角色和相互协作关系，这为我后续进一步学习Hadoop生态系统中的其他技术，如MapReduce编程、Hive数据仓库等奠定了坚实的基础。

本次实验是一次非常有意义的学习经历，让我在Hadoop的学习道路上迈出了重要的一步。

标签： #hadoop #伪分布式 #安装步骤 #实验总结