hadoop集群搭建的三种模式，hadoop集群搭建完整教程大数据

欧气 2024年10月02日 03:58 3 0

《Hadoop集群搭建全解析：单机模式、伪分布式模式与完全分布式模式》

图片来源于网络，如有侵权联系删除

一、引言

在大数据时代，Hadoop作为一个开源的分布式计算框架，被广泛应用于数据存储和处理，搭建Hadoop集群是进行大数据处理的基础，而Hadoop集群搭建主要有单机模式、伪分布式模式和完全分布式模式，下面将详细介绍这三种模式的搭建过程。

二、单机模式搭建

1、环境准备

- 首先需要安装Java环境，确保在系统中已经正确安装了Java Development Kit (JDK)，可以通过在终端输入java -version来检查Java版本。

- 下载Hadoop安装包，从Hadoop官方网站（https://hadoop.apache.org/）下载适合操作系统版本的Hadoop二进制包。

2、安装与配置

- 解压Hadoop安装包到指定目录，例如/usr/local/hadoop。

- 进入Hadoop安装目录下的etc/hadoop文件夹，编辑hadoop - env.sh文件，设置JAVA_HOME环境变量为Java的安装路径。

- 在单机模式下，不需要进行复杂的网络和分布式相关的配置，默认的配置文件基本可以满足单机模式的运行需求。

3、运行测试

- 可以运行一些简单的Hadoop示例程序来测试单机模式是否搭建成功，运行hadoop jar share/hadoop/mapreduce/hadoop - mapreduce - examples - [version].jar grep input output 'dfs[a - z.]+'，其中input可以是一个简单的文本文件，output是输出结果的目录，如果执行成功并且在output目录下看到预期的结果，说明单机模式的Hadoop搭建成功。

三、伪分布式模式搭建

1、环境准备

- 同样需要安装好Java环境，并且确保系统已经安装了SSH（Secure Shell）服务，因为Hadoop的各个节点之间（在伪分布式模式下虽然只有一个物理节点模拟多个节点）需要通过SSH进行通信。

- 下载并解压Hadoop安装包到指定目录，如前面单机模式所述。

2、配置修改

- 编辑core - site.xml文件，添加如下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

- 修改hdfs - site.xml文件：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>

</property>

</configuration>

```

- 在mapred - site.xml（如果没有则从模板复制一份）中设置：

hadoop集群搭建的三种模式，hadoop集群搭建完整教程大数据

图片来源于网络，如有侵权联系删除

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 编辑yarn - site.xml：

```xml

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

3、启动与测试

- 格式化HDFS（Hadoop Distributed File System），在Hadoop安装目录下执行bin/hdfs namenode - format。

- 启动Hadoop服务，执行start - all.sh（如果在某些系统中可能需要使用sbin/start - all.sh）。

- 通过访问http://localhost:50070可以查看HDFS的管理界面，通过http://localhost:8088可以查看YARN（Yet Another Resource Negotiator）的管理界面。

- 运行示例程序来进一步测试伪分布式模式的正确性，如前面单机模式下的示例程序。

四、完全分布式模式搭建

1、环境准备

- 准备多台物理机或者虚拟机，确保每台机器都安装了Java环境并且网络互通，可以通过设置静态IP地址或者使用DHCP（动态主机配置协议）分配固定的IP范围来保证网络的稳定性。

- 在每台机器上安装SSH服务，并且配置无密码登录，在主节点（假设为master）上生成SSH密钥对，然后将公钥分发到其他从节点上，这样就可以实现无密码登录从节点。

- 下载并解压Hadoop安装包到每台机器的相同目录下，例如/usr/local/hadoop。

2、配置文件修改

- 在主节点上编辑core - site.xml，设置如下：

```xml

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

</configuration>

```

- 修改hdfs - site.xml，

```xml

hadoop集群搭建的三种模式，hadoop集群搭建完整教程大数据

图片来源于网络，如有侵权联系删除

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/data/hadoop/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/data/hadoop/hdfs/datanode</value>

</property>

</configuration>

```

- 在mapred - site.xml中设置：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 编辑yarn - site.xml：

```xml

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

- 还需要在slaves文件（位于etc/hadoop目录下）中列出所有的从节点的主机名或者IP地址，每行一个。

3、启动与测试

- 在主节点上格式化HDFS，执行bin/hdfs namenode - format。

- 启动Hadoop集群，在主节点上执行start - all.sh。

- 可以通过访问http://master:50070查看HDFS的状态，通过http://master:8088查看YARN的状态，并且可以在集群上运行大规模的MapReduce作业或者其他基于Hadoop的大数据处理任务来测试集群的性能和正确性。

五、总结

Hadoop集群的三种搭建模式各有特点，单机模式适合初学者快速了解Hadoop的基本概念和操作；伪分布式模式在单机上模拟了分布式环境，方便开发和测试小型的分布式应用；完全分布式模式则是真正用于生产环境的大数据处理的搭建方式，能够充分利用多台机器的资源来处理海量数据，在实际应用中，根据需求和资源情况选择合适的搭建模式是非常重要的。

标签： #hadoop #集群搭建 #三种模式 #教程