hadoop伪分布式搭建全过程，hadoop伪分布式搭建的步骤

欧气 2024年09月30日 08:26 2 0

本文目录导读：

环境准备
Hadoop安装
Hadoop伪分布式配置
启动与测试

《Hadoop伪分布式搭建全流程解析》

环境准备

1、操作系统选择与安装

- 推荐使用Linux系统，如Ubuntu或CentOS，这里以Ubuntu为例，首先需要下载合适版本的Ubuntu镜像文件，然后通过虚拟机（如VMware Workstation或VirtualBox）进行安装，在安装过程中，要注意合理分配磁盘空间、内存和CPU资源，对于Hadoop伪分布式环境，至少分配2GB内存、20GB磁盘空间以及1 - 2个CPU核心。

2、Java环境安装

hadoop伪分布式搭建全过程，hadoop伪分布式搭建的步骤

图片来源于网络，如有侵权联系删除

- Hadoop运行依赖于Java环境，首先检查系统是否已经安装Java，如果没有，通过以下步骤安装。

- 在Ubuntu系统中，打开终端，执行命令sudo apt - get update更新软件包列表，然后执行sudo apt - get install openjdk - 8 - jdk（这里以安装Java 8为例），安装完成后，通过java - version命令检查Java是否安装成功。

3、网络配置

- 确保虚拟机网络连接方式为NAT或桥接模式，如果是NAT模式，需要设置端口转发以便外部能够访问虚拟机中的Hadoop服务，对于桥接模式，要确保虚拟机与宿主机在同一网段，并且没有IP地址冲突。

- 在Ubuntu系统中，编辑/etc/network/interfaces文件，配置静态IP地址（如果需要），

```

auto eth0

iface eth0 inet static

address 192.168.1.100

netmask 255.255.255.0

gateway 192.168.1.1

```

然后执行sudo service networking restart使网络配置生效。

Hadoop安装

1、下载Hadoop

- 前往Hadoop官方网站（https://hadoop.apache.org/）下载合适版本的Hadoop，选择较稳定的Hadoop 3.x版本，将下载的压缩包（如hadoop - 3.3.0.tar.gz）上传到Ubuntu系统中的指定目录，如/home/user/software。

2、解压Hadoop

- 在终端中进入到/home/user/software目录，执行命令tar - zxvf hadoop - 3.3.0.tar.gz将Hadoop解压到当前目录下，得到hadoop - 3.3.0文件夹，然后将该文件夹移动到/usr/local目录下，执行命令sudo mv hadoop - 3.3.0 /usr/local/hadoop。

3、配置Hadoop环境变量

- 编辑~/.bashrc文件，添加以下内容：

```

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

保存文件后，在终端执行source ~/.bashrc使环境变量生效。

Hadoop伪分布式配置

1、核心配置文件（core - site.xml）

- 进入/usr/local/hadoop/etc/hadoop目录，编辑core - site.xml文件，添加以下配置内容：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.defaultFS</name>

hadoop伪分布式搭建全过程，hadoop伪分布式搭建的步骤

图片来源于网络，如有侵权联系删除

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

这里将Hadoop的默认文件系统设置为HDFS，并指定了NameNode运行在本地的9000端口。

2、HDFS配置文件（hdfs - site.xml）

- 在相同目录下编辑hdfs - site.xml文件，添加如下配置：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hadoop - data/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hadoop - data/datanode</value>

</property>

</configuration>

```

其中dfs.replication设置为1，因为是伪分布式环境，数据副本数为1，同时指定了NameNode和Datanode的数据存储目录。

3、MapReduce配置文件（mapred - site.xml）

- 编辑mapred - site.xml文件（如果没有则从模板复制一个），配置如下：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

hadoop伪分布式搭建全过程，hadoop伪分布式搭建的步骤

图片来源于网络，如有侵权联系删除

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

将MapReduce的框架名称设置为YARN。

4、YARN配置文件（yarn - site.xml）

- 编辑yarn - site.xml文件，添加以下配置：

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

这里指定了YARN的NodeManager辅助服务以及ResourceManager运行在本地主机。

启动与测试

1、格式化HDFS

- 在终端中执行hdfs namenode - format命令，该命令会初始化HDFS，创建相关的文件系统结构和元数据存储目录，注意，如果之前已经格式化过，再次格式化可能会导致数据丢失。

2、启动Hadoop服务

- 首先启动HDFS，执行命令start - dfs.sh，然后启动YARN，执行命令start - yarn.sh，可以通过jps命令查看启动的进程，应该看到NameNode、DataNode、ResourceManager和NodeManager等进程。

3、测试Hadoop

- 可以通过运行一些简单的Hadoop示例任务来测试伪分布式环境是否搭建成功，执行hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar pi 2 10，这个命令会计算圆周率的近似值，如果任务能够正常运行并得到结果，说明Hadoop伪分布式环境搭建成功。

通过以上步骤，就可以成功搭建Hadoop伪分布式环境，为进一步学习和研究Hadoop相关技术奠定了基础，在搭建过程中，要注意各个配置文件的正确设置以及服务启动顺序等细节问题。

标签： #hadoop #伪分布式 #搭建 #步骤