虚拟机搭建hadoop集群三台Ubuntu，虚拟机搭建hadoop集群

欧气 2024年09月30日 08:46 3 0

本文目录导读：

图片来源于网络，如有侵权联系删除

准备工作
安装JDK
安装Hadoop
Hadoop集群配置
设置节点间SSH免密登录
启动Hadoop集群
验证集群是否搭建成功

《虚拟机中搭建基于三台Ubuntu的Hadoop集群全攻略》

随着大数据技术的不断发展，Hadoop作为一个开源的分布式计算框架，在数据存储和处理方面发挥着重要作用，在学习和实践Hadoop时，通过在虚拟机中搭建集群是一种便捷且低成本的方式，本文将详细介绍如何在虚拟机环境下，使用三台Ubuntu系统搭建Hadoop集群。

准备工作

（一）虚拟机软件安装

1、选择一款虚拟机软件，如VMware Workstation或者VirtualBox，这里以VMware Workstation为例进行讲解，下载并安装VMware Workstation到本地计算机。

2、在安装完成后，打开VMware Workstation，准备创建虚拟机。

（二）Ubuntu系统安装

1、下载Ubuntu系统镜像文件，可以从Ubuntu官方网站获取。

2、在VMware Workstation中创建三个虚拟机实例，每个实例都安装Ubuntu系统，在安装过程中，注意设置好用户名、密码等基本信息。

3、安装完成后，确保每个Ubuntu系统都能正常联网，以便后续安装软件包。

（三）网络配置

1、对于虚拟机网络，我们可以采用NAT模式或者桥接模式，如果采用NAT模式，虚拟机可以通过宿主机的网络连接访问外部网络；如果采用桥接模式，虚拟机将直接连接到本地网络，具有独立的IP地址，这里我们采用NAT模式进行配置。

2、在每个Ubuntu系统中，通过编辑网络配置文件（如/etc/network/interfaces）来设置静态IP地址，确保三个虚拟机的IP地址在同一个网段内，192.168.100.101、192.168.100.102、192.168.100.103，设置好网关和Dns服务器地址。

安装JDK

1、在每台Ubuntu系统中，首先更新软件包列表：

- 执行命令sudo apt - get update。

2、然后安装JDK，可以通过以下命令安装OpenJDK：

sudo apt - get install openjdk - 8 - jdk。

3、安装完成后，通过java - version命令检查JDK是否安装成功。

安装Hadoop

1、下载Hadoop安装包

- 从Hadoop官方网站下载适合版本的Hadoop压缩包，例如hadoop - 3.3.0.tar.gz。

2、解压Hadoop安装包

- 在每台Ubuntu系统中，将下载的Hadoop压缩包移动到合适的目录，如/usr/local目录下，然后执行解压命令：tar - zxvf hadoop - 3.3.0.tar.gz。

3、配置Hadoop环境变量

- 编辑~/.bashrc文件，添加以下内容：

export HADOOP_HOME = /usr/local/hadoop - 3.3.0

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

- 执行source ~/.bashrc使环境变量生效。

Hadoop集群配置

1、配置core - site.xml

- 在$HADOOP_HOME/etc/hadoop目录下，编辑core - site.xml文件，添加以下配置：

```xml

<name>fs.defaultFS</name>

虚拟机搭建hadoop集群三台Ubuntu，虚拟机搭建hadoop集群

图片来源于网络，如有侵权联系删除

<value>hdfs://master:9000</value>

</property>

</configuration>

```

- 这里假设我们将第一台虚拟机（IP地址为192.168.100.101）作为主节点（master），其他两台作为从节点。

2、配置hdfs - site.xml

- 在hdfs - site.xml文件中添加如下配置：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/hadoop - data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/hadoop - data/datanode</value>

</property>

</configuration>

```

3、配置mapred - site.xml

- 编辑mapred - site.xml文件，添加以下内容：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

虚拟机搭建hadoop集群三台Ubuntu，虚拟机搭建hadoop集群

图片来源于网络，如有侵权联系删除

```

4、配置yarn - site.xml

- 在yarn - site.xml文件中添加如下配置：

```xml

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

设置节点间SSH免密登录

1、在主节点（192.168.100.101）上生成SSH密钥对

- 执行命令ssh - keygen - t rsa，一路回车默认即可。

2、将公钥复制到从节点

- 执行命令ssh - copy - id 192.168.100.102和ssh - copy - id 192.168.100.103，分别将公钥复制到两台从节点上。

启动Hadoop集群

1、在主节点上，格式化HDFS文件系统

- 执行命令hdfs namenode - format。

2、启动Hadoop集群

- 启动HDFS：start - dfs.sh。

- 启动YARN：start - yarn.sh。

验证集群是否搭建成功

1、通过浏览器访问Hadoop的Web界面

- 对于HDFS的Web界面，可以通过http://master:9870访问（Hadoop 3.x版本），查看HDFS的状态信息，如文件系统的使用情况、节点信息等。

- 对于YARN的Web界面，可以通过http://master:8088访问，查看任务的执行情况、资源的使用情况等。

2、在集群上运行一个简单的MapReduce任务，如WordCount示例，来验证集群是否正常工作。

通过以上步骤，我们成功在虚拟机中的三台Ubuntu系统上搭建了Hadoop集群，在实际的学习和开发过程中，可以进一步探索Hadoop的各种功能和应用场景，为大数据处理打下坚实的基础。

标签： #虚拟机 #hadoop集群 #搭建

虚拟机搭建hadoop集群 三台Ubuntu，虚拟机搭建hadoop集群

准备工作

安装JDK

安装Hadoop

Hadoop集群配置

设置节点间SSH免密登录

启动Hadoop集群

验证集群是否搭建成功

虚拟机搭建hadoop集群三台Ubuntu，虚拟机搭建hadoop集群