安装hadoop伪分布式的步骤，hadoop安装与伪分布式集群搭建答案

欧气 2024年10月01日 10:58 3 0

本文目录导读：

图片来源于网络，如有侵权联系删除

环境准备
Hadoop安装
Hadoop伪分布式配置
启动Hadoop
验证Hadoop伪分布式集群

《Hadoop伪分布式集群搭建全攻略》

环境准备

1、操作系统

- 选择合适的操作系统，例如Ubuntu或CentOS，这里以Ubuntu为例，确保系统已经安装并且网络连接正常。

2、Java环境安装

- 由于Hadoop是基于Java开发的，所以需要安装Java运行环境，首先检查系统是否已经安装Java，如果没有，可以通过以下命令安装OpenJDK：

- 在Ubuntu系统中，使用sudo apt - get update更新软件包列表，然后执行sudo apt - get install openjdk - 8 - jdk（这里以Java 8为例）。

- 安装完成后，通过java - version命令检查Java版本是否正确安装。

Hadoop安装

1、下载Hadoop

- 访问Hadoop官方网站（https://hadoop.apache.org/），选择合适的版本进行下载，可以选择稳定版本的Hadoop二进制压缩包（如hadoop - 3.3.1.tar.gz）。

- 使用wget命令在Linux系统中下载，例如wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.1/hadoop - 3.3.1.tar.gz。

2、解压Hadoop

- 下载完成后，使用tar - zxvf hadoop - 3.3.1.tar.gz命令将压缩包解压到指定目录，例如/usr/local/hadoop（可以根据实际需求选择目录），如果/usr/local/hadoop目录不存在，可以先创建该目录，使用mkdir - p /usr/local/hadoop。

3、配置Hadoop环境变量

- 打开~/.bashrc文件（使用vi ~/.bashrc命令），在文件末尾添加以下内容：

export HADOOP_HOME = /usr/local/hadoop

export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

- 保存并退出文件后，执行source ~/.bashrc使环境变量生效。

Hadoop伪分布式配置

1、核心配置文件（core - site.xml）

- 进入$HADOOP_HOME/etc/hadoop目录，编辑core - site.xml文件（使用vi core - site.xml）。

- 在<configuration>标签内添加以下配置：

<property>

<name>fs.defaultFS</name>

安装hadoop伪分布式的步骤，hadoop安装与伪分布式集群搭建答案

图片来源于网络，如有侵权联系删除

<value>hdfs://localhost:9000</value>

</property>

- 这里将Hadoop的默认文件系统设置为本地的HDFS，端口为9000。

2、HDFS配置文件（hdfs - site.xml）

- 编辑hdfs - site.xml文件。

- 在<configuration>标签内添加如下配置：

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

- 因为是伪分布式，所以数据块的副本数设置为1。

3、MapReduce配置文件（mapred - site.xml）

- 从mapred - site.xml.template复制一份得到mapred - site.xml，执行cp mapred - site.xml.template mapred - site.xml。

- 编辑mapred - site.xml，添加以下配置：

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

- 这里指定MapReduce使用YARN框架。

4、YARN配置文件（yarn - site.xml）

- 编辑yarn - site.xml文件。

- 在<configuration>标签内添加以下配置：

安装hadoop伪分布式的步骤，hadoop安装与伪分布式集群搭建答案

图片来源于网络，如有侵权联系删除

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

启动Hadoop

1、格式化HDFS

- 在首次启动Hadoop之前，需要格式化HDFS，进入$HADOOP_HOME/bin目录，执行hdfs namenode - format命令。

- 如果格式化成功，会看到相关的成功提示信息。

2、启动Hadoop服务

- 启动HDFS：执行start - dfs.sh命令，可以通过jps命令查看是否启动了NameNode、DataNode等相关进程。

- 启动YARN：执行start - yarn.sh命令，再通过jps命令查看是否启动了ResourceManager和NodeManager等进程。

验证Hadoop伪分布式集群

1、查看HDFS状态

- 通过浏览器访问http://localhost:9870（Hadoop 3.x版本中HDFS的Web界面端口），可以查看HDFS的相关信息，如文件系统的使用情况、数据节点状态等。

2、查看YARN状态

- 在浏览器中访问http://localhost:8088（YARN的Web界面端口），可以查看YARN集群的资源使用情况、任务运行状态等信息。

通过以上步骤，就可以成功搭建Hadoop伪分布式集群，并且可以在这个环境下进行Hadoop相关的开发和测试工作。

标签： #hadoop #伪分布式 #安装 #步骤