hadoop伪分布式集群搭建过程，hadoop分布式与伪分布式集群搭建

欧气 2024年10月01日 19:29 3 0

《Hadoop伪分布式集群搭建全解析：从原理到实践》

图片来源于网络，如有侵权联系删除

一、引言

Hadoop作为一个开源的分布式计算框架，在大数据处理领域有着广泛的应用，搭建Hadoop伪分布式集群是学习和实践Hadoop的重要一步，它可以让我们在单台机器上模拟分布式环境，便于开发和测试相关的应用程序，本文将详细介绍Hadoop伪分布式集群的搭建过程。

二、环境准备

1、操作系统选择

- 推荐使用Linux系统，例如Ubuntu或CentOS，这里以Ubuntu为例，确保系统已经安装并且网络连接正常。

2、Java环境安装

- Hadoop是基于Java开发的，所以需要安装Java Development Kit (JDK)，可以通过命令行安装OpenJDK，在Ubuntu上执行以下命令：

sudo apt - get update

sudo apt - get install openjdk - 8 - jdk

- 安装完成后，通过java - version命令验证Java是否安装成功。

3、下载Hadoop

- 访问Hadoop官方网站（https://hadoop.apache.org/），下载适合的Hadoop版本，可以下载Hadoop 3.x版本，将下载的压缩包解压到指定的目录，如/usr/local/hadoop。

三、配置Hadoop

1、修改hadoop - env.sh文件

- 进入Hadoop的安装目录下的etc/hadoop文件夹，找到hadoop - env.sh文件。

- 在文件中设置Java的安装路径，export JAVA_HOME =/usr/lib/jvm/java - 8 - openjdk - amd64。

2、配置core - site.xml

- 在etc/hadoop目录下，打开core - site.xml文件。

- 添加以下配置内容：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

- 这里将Hadoop的默认文件系统设置为HDFS，并且指定了名称节点（NameNode）运行在本地的9000端口。

3、配置hdfs - site.xml

- 同样在etc/hadoop目录下，编辑hdfs - site.xml文件。

- 配置如下内容：

```xml

hadoop伪分布式集群搭建过程，hadoop分布式与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>

</property>

</configuration>

```

- 由于是伪分布式环境，数据块的复制因子设置为1，同时指定了名称节点和数据节点的数据存储目录。

4、配置mapred - site.xml

- 复制mapred - site.xml.template文件为mapred - site.xml。

- 编辑mapred - site.xml文件，添加以下内容：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 这里将MapReduce的框架设置为YARN。

5、配置yarn - site.xml

- 在etc/hadoop目录下，打开yarn - site.xml文件。

- 配置如下内容：

```xml

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

hadoop伪分布式集群搭建过程，hadoop分布式与伪分布式集群搭建

图片来源于网络，如有侵权联系删除

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

- 其中yarn.resourcemanager.hostname指定了资源管理器（ResourceManager）运行在本地主机上。

四、启动Hadoop集群

1、格式化HDFS

- 在Hadoop安装目录下，执行命令：bin/hdfs namenode - format。

- 这个操作会初始化HDFS，创建名称节点的相关目录和文件。

2、启动HDFS和YARN服务

- 启动HDFS：sbin/start - dfs.sh。

- 启动YARN：sbin/start - yarn.sh。

- 可以通过命令jps查看启动的进程，应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。

3、验证集群是否正常工作

- 通过浏览器访问http://localhost:9870（HDFS的Web界面）和http://localhost:8088（YARN的Web界面）。

- 在HDFS的Web界面中，可以查看文件系统的状态、存储使用情况等信息，在YARN的Web界面中，可以查看作业的运行状态、资源分配等情况。

五、运行示例程序

1、创建测试文件

- 在本地文件系统中创建一个简单的文本文件，例如test.txt可以是一些简单的文本。

2、将文件上传到HDFS

- 使用命令bin/hdfs dfs - put test.txt /user/your_username/将文件上传到HDFS的指定目录下。

3、运行示例MapReduce程序

- 可以运行Hadoop自带的示例程序，如wordcount，执行命令：bin/hadoop jar share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.x.x.jar wordcount /user/your_username/test.txt /user/your_username/output。

- 这个命令会在Hadoop集群上运行wordcount程序，对上传的test.txt文件进行单词计数，并将结果输出到/user/your_username/output目录下。

六、关闭集群

当完成测试和使用后，可以关闭Hadoop集群，执行命令sbin/stop - dfs.sh和sbin/stop - yarn.sh来停止HDFS和YARN服务。

七、总结

通过以上步骤，我们成功搭建了Hadoop伪分布式集群，在这个过程中，我们进行了环境准备、Hadoop的详细配置、集群的启动和验证，以及运行示例程序等操作，这种伪分布式集群的搭建方式为我们深入学习Hadoop的原理、开发和测试相关的大数据应用提供了一个方便的平台，在实际的开发和研究中，我们可以根据具体的需求进一步优化配置和扩展功能。

标签： #hadoop #伪分布式 #集群搭建 #分布式