vmware虚拟机搭建hadoop，vmware虚拟机搭建

欧气 2024年09月30日 02:13 4 0

《VMware虚拟机搭建Hadoop环境全攻略》

一、VMware虚拟机安装与配置

1、VMware Workstation安装

- 从VMware官方网站下载VMware Workstation的安装包，根据自己的操作系统（Windows或Linux）选择相应的版本，下载完成后，双击安装包启动安装向导。

- 在安装过程中，按照提示进行操作，接受许可协议，选择安装路径（建议选择磁盘空间充足的分区），安装过程中可能会提示重启计算机，按照要求重启。

2、创建虚拟机

- 打开VMware Workstation，点击“创建新的虚拟机”，在新建虚拟机向导中，选择“自定义（高级）”模式，这样可以对虚拟机的各项参数进行详细配置。

- 在“选择虚拟机硬件兼容性”页面，保持默认设置即可，然后选择“安装客户机操作系统稍后安装操作系统”，因为我们要先配置好虚拟机的硬件环境再安装操作系统。

- 对于“选择客户机操作系统”，根据自己的需求选择，如果要搭建Hadoop环境，通常选择Linux系统，如CentOS或Ubuntu，这里以CentOS为例，选择“Linux”，版本选择“CentOS 7 64 - bit”。

- 为虚拟机命名并选择存储位置，虚拟机名称可以自定义，存储位置要确保有足够的磁盘空间。

- 在“处理器配置”页面，根据主机的硬件资源合理分配处理器核心数，如果主机是多核处理器，可以分配2 - 4个核心给虚拟机。

- 对于内存分配，同样要根据主机内存大小合理分配，如果主机内存为8GB，可以分配2 - 4GB给虚拟机。

- 在“网络类型”选择上，有桥接模式、NAT模式和仅主机模式等，如果希望虚拟机能够与外部网络直接通信，并且可以被外部设备访问，选择桥接模式；如果只是希望虚拟机能够访问外部网络，选择NAT模式；仅主机模式则用于虚拟机与主机之间的内部网络通信，这里选择NAT模式。

- 创建新的虚拟磁盘，设置磁盘大小，对于Hadoop环境搭建，建议磁盘大小至少为20GB，选择磁盘类型为SCSI，虚拟设备节点选择默认即可。

3、安装CentOS操作系统

- 挂载CentOS的ISO镜像文件到虚拟机的光驱，在虚拟机设置中，找到“CD/DVD（SATA）”选项，选择“使用ISO映像文件”，然后浏览并选择下载好的CentOS ISO文件。

- 启动虚拟机，进入CentOS安装界面，按照安装向导进行操作，选择安装语言、时区、磁盘分区等，在磁盘分区时，可以选择自动分区或者手动分区，如果选择手动分区，建议创建“/”根分区、“swap”交换分区等。

- 设置根用户密码和创建普通用户（可选），安装完成后，重启虚拟机进入CentOS系统。

二、在虚拟机中安装和配置Hadoop

1、安装Java环境

- 由于Hadoop是基于Java开发的，首先需要安装Java开发工具包（JDK），在CentOS中，可以通过yum命令安装OpenJDK，执行命令“yum install - y java - 1.8.0 - openjdk - devel”。

- 安装完成后，设置Java环境变量，编辑“/etc/profile”文件，在文件末尾添加以下内容：

```

export JAVA_HOME=/usr/lib/jvm/java - 1.8.0 - openjdk - 1.8.0.292.b10 - 1.el7_9.x86_64

export PATH=$PATH:$JAVA_HOME/bin

```

- 保存文件后，执行“source /etc/profile”使环境变量生效。

2、下载和安装Hadoop

- 从Hadoop官方网站（https://hadoop.apache.org/）下载稳定版本的Hadoop，例如Hadoop 3.3.1，可以使用wget命令下载，wget https://dlcdn.apache.org/hadoop/common/hadoop - 3.3.1/hadoop - 3.3.1.tar.gz”。

- 下载完成后，解压Hadoop压缩包到指定目录，tar - zxvf hadoop - 3.3.1.tar.gz - C /usr/local/”。

- 配置Hadoop环境变量，编辑“/etc/profile”文件，添加以下内容：

```

export HADOOP_HOME=/usr/local/hadoop - 3.3.1

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

- 执行“source /etc/profile”使环境变量生效。

3、配置Hadoop集群相关文件

- 进入Hadoop的安装目录下的“etc/hadoop”文件夹。

- 编辑“core - site.xml”文件，配置Hadoop的核心参数，

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

- 编辑“hdfs - site.xml”文件，配置Hadoop分布式文件系统（HDFS）的相关参数，如副本数等：

```xml

<name>dfs.replication</name>

</property>

</configuration>

```

- 编辑“mapred - site.xml”文件（如果没有则从“mapred - site.xml.template”复制一份），配置MapReduce相关参数，

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 编辑“yarn - site.xml”文件，配置YARN（Yet Another Resource Negotiator）相关参数：

```xml

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

4、格式化HDFS

- 在Hadoop安装目录下，执行“bin/hdfs namenode - format”命令，这个命令用于初始化Hadoop分布式文件系统（HDFS）的元数据存储，创建文件系统的初始目录结构等。

5、启动Hadoop集群

- 执行“sbin/start - all.sh”命令启动Hadoop集群，这个命令会依次启动HDFS的NameNode、DataNode和YARN的ResourceManager、NodeManager等组件。

- 可以通过浏览器访问Hadoop的Web界面来查看集群状态，访问“http://localhost:9870”查看HDFS的Web界面，访问“http://localhost:8088”查看YARN的Web界面。

6、测试Hadoop集群

- 可以运行一些简单的Hadoop示例程序来测试集群是否正常工作，运行“hadoop jar share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.1.jar grep input output 'dfs[a - z.]+'”，这个示例程序会在“input”目录（如果不存在需要创建）下查找包含特定模式的文本，并将结果输出到“output”目录。

通过以上步骤，我们就在VMware虚拟机中成功搭建了Hadoop环境，可以进一步进行大数据相关的开发和实验工作。

标签： #vmware #虚拟机 #hadoop #搭建