hadoop安装与伪分布式集群搭建头歌超详细具体步骤，hadoop安装与伪分布式集群搭建

欧气 2024年09月30日 05:15 3 0

本文目录导读：

环境准备
Hadoop安装
伪分布式集群搭建
启动Hadoop
验证Hadoop安装与集群

《Hadoop安装与伪分布式集群搭建全攻略》

环境准备

1、操作系统

- 建议使用Linux系统，这里以CentOS 7为例，确保系统已经安装并且网络连接正常。

2、软件依赖安装

- 安装Java环境，Hadoop运行需要Java支持，通过命令yum install java -y安装OpenJDK，也可以从Oracle官网下载JDK并进行安装配置。

- 安装SSH，Hadoop在启动和运行过程中，各个节点之间需要通过SSH进行通信，通过命令yum install openssh - server openssh - clients -y安装SSH服务，然后使用ssh - keygen -t rsa命令生成密钥对，再通过ssh - copy - id localhost将公钥复制到本地，实现无密码登录。

Hadoop安装

1、下载Hadoop

- 从Hadoop官方网站（https://hadoop.apache.org/releases.html）下载合适版本的Hadoop，这里以Hadoop 3.3.0为例，使用命令wget https://dlcdn.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz将其下载到本地。

2、解压Hadoop

- 使用命令tar -zxvf hadoop - 3.3.0.tar.gz将下载的压缩包解压到指定目录，例如/usr/local，可以使用命令mv hadoop - 3.3.0 /usr/local/hadoop将解压后的文件夹重命名为hadoop。

3、配置Hadoop环境变量

- 编辑/etc/profile文件，添加以下内容：

```

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

```

- 执行source /etc/profile使环境变量生效。

伪分布式集群搭建

1、配置核心文件（core - site.xml）

- 在$HADOOP_HOME/etc/hadoop目录下，编辑core - site.xml文件，添加以下配置：

```xml

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

```

- 这里fs.defaultFS指定了Hadoop的默认文件系统为HDFS，并且设置了NameNode运行在本地的9000端口；hadoop.tmp.dir指定了Hadoop临时文件的存储目录。

2、配置HDFS文件（hdfs - site.xml）

- 编辑hdfs - site.xml文件，配置如下：

```xml

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/hdfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/hdfs/data</value>

</property>

</configuration>

```

- 由于是伪分布式模式，dfs.replication设置为1，表示数据块的副本数为1。dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode和DataNode的数据存储目录。

3、配置MapReduce文件（mapred - site.xml）

- 从mapred - site.xml.template复制一份得到mapred - site.xml，编辑它并添加以下内容：

```xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- 这里将MapReduce的运行框架指定为YARN。

4、配置YARN文件（yarn - site.xml）

- 编辑yarn - site.xml文件，配置如下：

```xml

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

</configuration>

```

yarn.nodemanager.aux - services指定了YARN的辅助服务为mapreduce_shuffle，yarn.resourcemanager.hostname设置了资源管理器运行在本地主机。

启动Hadoop

1、格式化NameNode

- 在第一次启动Hadoop之前，需要格式化NameNode，在终端中执行hdfs namenode - format命令，这个命令会初始化HDFS的文件系统元数据，创建相关的目录结构等。

2、启动Hadoop服务

- 执行start - all.sh命令来启动Hadoop的所有服务，包括NameNode、DataNode、ResourceManager和NodeManager等，可以通过jps命令查看启动的进程，应该能看到NameNode、DataNode、ResourceManager和NodeManager等进程。