hadoop分布式和伪分布式的差别，hadoop分布式与伪分布式集群搭建，Hadoop分布式与伪分布式集群搭建，差异解析与搭建步骤详解

欧气 2024年10月10日 11:03 0 0

本文深入解析了Hadoop分布式与伪分布式集群的差异，详细介绍了两者的搭建步骤。通过对比，揭示了两者在性能、资源使用和适用场景上的不同，为读者提供了全面了解和搭建Hadoop集群的指南。

本文目录导读：

Hadoop分布式与伪分布式集群的区别
Hadoop分布式集群搭建步骤
Hadoop伪分布式集群搭建步骤

Hadoop分布式与伪分布式集群的区别

Hadoop分布式和伪分布式集群是Hadoop集群的两种部署方式，它们在架构、性能、资源利用率等方面存在一定差异，以下是Hadoop分布式与伪分布式集群的主要区别：

hadoop分布式和伪分布式的差别，hadoop分布式与伪分布式集群搭建，Hadoop分布式与伪分布式集群搭建，差异解析与搭建步骤详解

图片来源于网络，如有侵权联系删除

1、架构差异

（1）分布式集群：分布式集群由多个节点组成，包括NameNode、DataNode、Secondary NameNode等，NameNode负责存储元数据，DataNode负责存储实际数据，Secondary NameNode负责备份NameNode的元数据。

（2）伪分布式集群：伪分布式集群由单个节点组成，该节点同时承担NameNode、DataNode、Secondary NameNode等角色。

2、性能差异

（1）分布式集群：分布式集群可以充分利用多台物理机器的计算和存储资源，提高数据处理能力，适用于大规模数据处理场景。

（2）伪分布式集群：伪分布式集群的性能相对较低，因为所有角色都由单个节点承担，资源利用率不高。

3、资源利用率差异

（1）分布式集群：分布式集群可以充分利用多台物理机器的计算和存储资源，提高资源利用率。

（2）伪分布式集群：伪分布式集群的资源利用率较低，因为所有角色都由单个节点承担。

Hadoop分布式集群搭建步骤

1、准备环境

（1）选择合适的操作系统，如CentOS 7。

（2）安装Java环境，要求版本为1.8或以上。

（3）安装SSH服务，实现节点间免密登录。

2、配置环境变量

编辑 /etc/profile 文件，添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
export PATH=$PATH:$JAVA_HOME/bin

然后执行source /etc/profile 命令使配置生效。

3、下载Hadoop安装包

从Hadoop官网下载最新的Hadoop安装包，解压到指定目录。

4、配置Hadoop环境

（1）编辑 hadoop-env.sh 文件，设置Java环境变量：

hadoop分布式和伪分布式的差别，hadoop分布式与伪分布式集群搭建，Hadoop分布式与伪分布式集群搭建，差异解析与搭建步骤详解

图片来源于网络，如有侵权联系删除

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64

（2）编辑 core-site.xml 文件，配置HDFS存储目录：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

（3）编辑 hdfs-site.xml 文件，配置NameNode和DataNode的存储目录：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/hadoop-3.3.4/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/hadoop-3.3.4/hdfs/datanode</value>
    </property>
</configuration>

5、格式化NameNode

执行以下命令格式化NameNode：

hdfs namenode -format

6、启动Hadoop服务

（1）启动NameNode：

start-dfs.sh

（2）启动Secondary NameNode：

start-SecondaryNameNode.sh

（3）启动DataNode：

start-dfs.sh

7、验证Hadoop集群

（1）查看HDFS目录结构：

hdfs dfs -ls /

（2）上传文件到HDFS：

hdfs dfs -put /home/hadoop/test.txt /

（3）查看文件内容：

hdfs dfs -cat /

Hadoop伪分布式集群搭建步骤

伪分布式集群搭建步骤与分布式集群类似，只是在配置Hadoop环境时，需要修改 core-site.xml 和 hdfs-site.xml 文件中的内容，使其指向本机的存储目录，以下是伪分布式集群搭建步骤：

1、准备环境

（1）选择合适的操作系统，如CentOS 7。

（2）安装Java环境，要求版本为1.8或以上。

（3）安装SSH服务，实现节点间免密登录。

2、配置环境变量

编辑 /etc/profile 文件，添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64
export PATH=$PATH:$JAVA_HOME/bin

然后执行source /etc/profile 命令使配置生效。

hadoop分布式和伪分布式的差别，hadoop分布式与伪分布式集群搭建，Hadoop分布式与伪分布式集群搭建，差异解析与搭建步骤详解

图片来源于网络，如有侵权联系删除

3、下载Hadoop安装包

从Hadoop官网下载最新的Hadoop安装包，解压到指定目录。

4、配置Hadoop环境

（1）编辑 hadoop-env.sh 文件，设置Java环境变量：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.252.x86_64

（2）编辑 core-site.xml 文件，配置HDFS存储目录：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

（3）编辑 hdfs-site.xml 文件，配置NameNode和DataNode的存储目录：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/hadoop-3.3.4/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/hadoop-3.3.4/hdfs/datanode</value>
    </property>
</configuration>

5、格式化NameNode

执行以下命令格式化NameNode：