本文目录导读:
图片来源于网络,如有侵权联系删除
《虚拟机中搭建基于三台Ubuntu的Hadoop集群全攻略》
随着大数据技术的不断发展,Hadoop作为一个开源的分布式计算框架,在数据存储和处理方面发挥着重要作用,在学习和实践Hadoop时,通过在虚拟机中搭建集群是一种便捷且低成本的方式,本文将详细介绍如何在虚拟机环境下,使用三台Ubuntu系统搭建Hadoop集群。
准备工作
(一)虚拟机软件安装
1、选择一款虚拟机软件,如VMware Workstation或者VirtualBox,这里以VMware Workstation为例进行讲解,下载并安装VMware Workstation到本地计算机。
2、在安装完成后,打开VMware Workstation,准备创建虚拟机。
(二)Ubuntu系统安装
1、下载Ubuntu系统镜像文件,可以从Ubuntu官方网站获取。
2、在VMware Workstation中创建三个虚拟机实例,每个实例都安装Ubuntu系统,在安装过程中,注意设置好用户名、密码等基本信息。
3、安装完成后,确保每个Ubuntu系统都能正常联网,以便后续安装软件包。
(三)网络配置
1、对于虚拟机网络,我们可以采用NAT模式或者桥接模式,如果采用NAT模式,虚拟机可以通过宿主机的网络连接访问外部网络;如果采用桥接模式,虚拟机将直接连接到本地网络,具有独立的IP地址,这里我们采用NAT模式进行配置。
2、在每个Ubuntu系统中,通过编辑网络配置文件(如/etc/network/interfaces
)来设置静态IP地址,确保三个虚拟机的IP地址在同一个网段内,192.168.100.101、192.168.100.102、192.168.100.103,设置好网关和Dns服务器地址。
安装JDK
1、在每台Ubuntu系统中,首先更新软件包列表:
- 执行命令sudo apt - get update
。
2、然后安装JDK,可以通过以下命令安装OpenJDK:
sudo apt - get install openjdk - 8 - jdk
。
3、安装完成后,通过java - version
命令检查JDK是否安装成功。
安装Hadoop
1、下载Hadoop安装包
- 从Hadoop官方网站下载适合版本的Hadoop压缩包,例如hadoop - 3.3.0.tar.gz
。
2、解压Hadoop安装包
- 在每台Ubuntu系统中,将下载的Hadoop压缩包移动到合适的目录,如/usr/local
目录下,然后执行解压命令:tar - zxvf hadoop - 3.3.0.tar.gz
。
3、配置Hadoop环境变量
- 编辑~/.bashrc
文件,添加以下内容:
export HADOOP_HOME = /usr/local/hadoop - 3.3.0
export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 执行source ~/.bashrc
使环境变量生效。
Hadoop集群配置
1、配置core - site.xml
- 在$HADOOP_HOME/etc/hadoop
目录下,编辑core - site.xml
文件,添加以下配置:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
图片来源于网络,如有侵权联系删除
<value>hdfs://master:9000</value>
</property>
</configuration>
```
- 这里假设我们将第一台虚拟机(IP地址为192.168.100.101)作为主节点(master),其他两台作为从节点。
2、配置hdfs - site.xml
- 在hdfs - site.xml
文件中添加如下配置:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hadoop - data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hadoop - data/datanode</value>
</property>
</configuration>
```
3、配置mapred - site.xml
- 编辑mapred - site.xml
文件,添加以下内容:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
图片来源于网络,如有侵权联系删除
```
4、配置yarn - site.xml
- 在yarn - site.xml
文件中添加如下配置:
```xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
设置节点间SSH免密登录
1、在主节点(192.168.100.101)上生成SSH密钥对
- 执行命令ssh - keygen - t rsa
,一路回车默认即可。
2、将公钥复制到从节点
- 执行命令ssh - copy - id 192.168.100.102
和ssh - copy - id 192.168.100.103
,分别将公钥复制到两台从节点上。
启动Hadoop集群
1、在主节点上,格式化HDFS文件系统
- 执行命令hdfs namenode - format
。
2、启动Hadoop集群
- 启动HDFS:start - dfs.sh
。
- 启动YARN:start - yarn.sh
。
验证集群是否搭建成功
1、通过浏览器访问Hadoop的Web界面
- 对于HDFS的Web界面,可以通过http://master:9870
访问(Hadoop 3.x版本),查看HDFS的状态信息,如文件系统的使用情况、节点信息等。
- 对于YARN的Web界面,可以通过http://master:8088
访问,查看任务的执行情况、资源的使用情况等。
2、在集群上运行一个简单的MapReduce任务,如WordCount示例,来验证集群是否正常工作。
通过以上步骤,我们成功在虚拟机中的三台Ubuntu系统上搭建了Hadoop集群,在实际的学习和开发过程中,可以进一步探索Hadoop的各种功能和应用场景,为大数据处理打下坚实的基础。
评论列表