第2关，Hadoop安装与伪分布式集群搭建指南，搭建hadoop伪分布式环境步骤

欧气 2025年03月12日 21:53 1 0

在当今大数据时代,Apache Hadoop作为一种开源的分布式计算平台，因其强大的数据处理能力而备受关注，为了更好地理解和掌握Hadoop的核心技术，我们将在本教程中详细介绍如何安装和搭建一个伪分布式Hadoop集群。

准备工作

在进行Hadoop的安装之前,我们需要确保我们的系统满足以下要求：

图片来源于网络，如有侵权联系删除

访问Apache Hadoop官网下载最新版本的Hadoop tar包，目前最新稳定版是3.x系列，这里以Hadoop-3.3.0为例进行说明。
使用以下命令将下载的tar包解压到指定目录：
```
tar -xzf hadoop-3.3.0.tar.gz -C /usr/local/hadoop
```
将/usr/local/hadoop目录添加到PATH环境中，以便后续使用Hadoop命令行工具：
```
export PATH=$PATH:/usr/local/hadoop/bin
```

创建.bashrc文件并在其中添加以下内容来设置Hadoop的环境变量：

echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=\$PATH:\$HADOOP_HOME/bin' >> ~/.bashrc

在/usr/local/hadoop/etc/hadoop目录下创建一个空的core-site.xml文件：
```
<configuration>
</configuration>
```
同样地,创建一个空的hdfs-site.xml文件：
```
<configuration>
</configuration>
```

在core-site.xml文件中添加以下配置项：

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>

在hdfs-site.xml文件中添加以下配置项：

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

在hdfs-site.xml文件中添加以下配置项以启用HA特性：

<property>
    <name>ha.zookeeper.quorum</name>
    <value>localhost:2181</value>
</property>

测试写入数据：

hdfs dfs -put localfile.txt /user/hadoop/test/

测试读取数据：

hdfs dfs -cat /user/hadoop/test/localfile.txt

名称节点是HDFS的核心组件之一,负责管理整个文件系统的元数据，包括文件的创建、删除、重命名等操作，它还维护了所有块的副本信息以及它们的存储位置。

每个数据节点都托管着一部分块的数据副本,当有读写请求时，数据节点直接响应该请求而不需要经过名称节点，这大大提高了数据的访问速度。

客户端是用户与HDFS交互的主要接口,通过发送RPC请求给名称节点和数据节点来完成各种操作。

第2关，Hadoop安装与伪分布式集群搭建指南，搭建hadoop伪分布式环境步骤

图片来源于网络，如有侵权联系删除

YARN是Apache Hadoop的一个核心模块，主要用于资源管理和任务调度，它允许不同的应用程序共享