hadoop伪分布式集群安装步骤，hadoop安装与伪分布式集群搭建头歌

欧气 2024年10月01日 10:34 2 0

《Hadoop伪分布式集群搭建全攻略：从安装到运行》

图片来源于网络，如有侵权联系删除

一、引言

Hadoop作为大数据处理领域的核心框架，在数据存储（HDFS）和数据处理（MapReduce等）方面发挥着至关重要的作用，搭建Hadoop伪分布式集群是学习和初步探索Hadoop功能的重要途径，通过伪分布式集群的搭建，我们可以在单机上模拟分布式环境，深入理解Hadoop的工作原理和运行机制。

二、安装前的准备工作

1、系统环境准备

- 操作系统选择：建议使用Linux系统，例如Ubuntu或CentOS，这里以Ubuntu为例进行讲解，确保系统已经安装并更新到最新版本，使用命令sudo apt - get update和sudo apt - get upgrade。

- 安装必要的软件包：需要安装Java开发工具包（JDK），因为Hadoop是基于Java开发的，可以通过命令sudo apt - get install openjdk - 8 - jdk（对于Ubuntu系统，以安装OpenJDK 8为例）来安装，安装完成后，使用java - version命令验证JDK的安装情况。

2、创建用户和设置权限

- 创建专门的用户来运行Hadoop，例如hadoopuser，使用命令sudo adduser hadoopuser，按照提示设置密码和相关用户信息。

- 切换到新创建的用户su - hadoopuser，并且为该用户设置合适的工作目录，例如mkdir ~/hadoop_workspace。

3、下载Hadoop安装包

- 从Hadoop官方网站（https://hadoop.apache.org/releases.html）下载合适版本的Hadoop，下载Hadoop 3.x版本，可以使用wget命令下载，如wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz（这里以Hadoop 3.3.0为例）。

- 下载完成后，解压安装包到指定目录，如tar - zxvf hadoop - 3.3.0.tar.gz - C ~/hadoop_workspace。

三、Hadoop伪分布式集群搭建步骤

1、配置Hadoop环境变量

- 编辑用户的.bashrc文件，使用命令vi ~/.bashrc，在文件末尾添加以下内容：

```bash

export HADOOP_HOME=~/hadoop_workspace/hadoop - 3.3.0

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

```

- 保存并退出文件后，执行source ~/.bashrc使环境变量生效。

2、配置Hadoop核心文件

- 进入Hadoop的配置目录cd $HADOOP_HOME/etc/hadoop。

- 编辑core - site.xml文件，添加如下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

hadoop伪分布式集群安装步骤，hadoop安装与伪分布式集群搭建头歌

图片来源于网络，如有侵权联系删除

<value>/home/hadoopuser/hadoop_workspace/hadoop - 3.3.0/tmp</value>

</property>

</configuration>

```

- 这里fs.defaultFS指定了HDFS的默认文件系统的地址，hadoop.tmp.dir指定了Hadoop临时文件的存储目录。

3、配置HDFS文件

- 编辑hdfs - site.xml文件，配置如下：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/home/hadoopuser/hadoop_workspace/hadoop - 3.3.0/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hadoopuser/hadoop_workspace/hadoop - 3.3.0/dfs/data</value>

</property>

</configuration>

```

- 其中dfs.replication设置数据块的副本数，在伪分布式环境下设置为1。dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode和DataNode的数据存储目录。

4、配置MapReduce文件（可选，对于Hadoop 3.x版本）

- 编辑mapred - site.xml文件（如果没有则从模板创建），添加：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 这使得MapReduce任务运行在YARN框架之上。

hadoop伪分布式集群安装步骤，hadoop安装与伪分布式集群搭建头歌

图片来源于网络，如有侵权联系删除

5、配置YARN文件

- 编辑yarn - site.xml文件，配置如下：

```xml

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

- 这里yarn.nodemanager.aux - services指定了YARN的辅助服务，yarn.resourcemanager.hostname指定了资源管理器的主机名。

四、启动Hadoop伪分布式集群

1、格式化NameNode

- 在首次启动Hadoop之前，需要格式化NameNode，使用命令hdfs namenode - format，这个操作会初始化HDFS的文件系统元数据，创建相关的目录结构。

2、启动Hadoop服务

- 启动HDFS服务：使用命令start - dfs.sh，这个命令会启动NameNode和DataNode服务，可以通过jps命令查看启动的进程，应该能看到NameNode和DataNode进程。

- 启动YARN服务：使用命令start - yarn.sh，之后通过jps命令可以看到ResourceManager和NodeManager进程也已经启动。

五、验证Hadoop伪分布式集群

1、查看HDFS状态

- 使用命令hdfs dfs - ls /可以查看HDFS根目录下的文件和目录，初始情况下，可能只有一些默认的目录结构。

2、运行示例MapReduce任务

- Hadoop自带了一些示例MapReduce任务，可以用来测试集群的运行情况，运行hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar wordcount /input /output，这里/input是输入文件的HDFS路径（如果不存在需要先创建并上传文件），/output是输出结果的HDFS路径。

六、常见问题及解决方法

1、端口占用问题

- 如果在启动Hadoop服务时提示端口被占用，例如9000端口被占用，可以使用netstat - tlnp命令查看占用端口的进程，然后使用kill - 9 <pid>命令（其中<pid>是进程ID）来杀死占用端口的进程。

2、权限问题

- 如果在操作HDFS时提示权限不足，可能是因为当前用户没有足够的权限，可以检查文件和目录的权限设置，并且确保在操作HDFS时使用的是正确的用户身份，可以在执行Hadoop命令前使用sudo - u hadoopuser命令切换到具有操作权限的用户。

通过以上步骤，我们就可以成功搭建Hadoop伪分布式集群，并进行初步的大数据处理任务测试，在实际操作过程中，可能会遇到各种问题，但通过仔细排查和参考相关文档，都能够得到解决，这为进一步深入学习Hadoop生态系统和大数据处理技术奠定了坚实的基础。

标签： #hadoop #伪分布式 #安装步骤 #集群搭建