hadoop伪分布式安装详细步骤，hadoop伪分布式安装搭建步骤

欧气 2024年09月28日 17:28 4 0

标题：Hadoop 伪分布式安装详细步骤及详解

一、引言

Hadoop 是一个开源的分布式计算框架，它可以处理大规模数据，并提供高可靠、高可用和高可扩展性的计算能力，Hadoop 伪分布式模式是 Hadoop 安装的一种模式，它可以在一台单机上模拟出一个分布式的 Hadoop 环境，方便开发者进行 Hadoop 开发和测试，本文将详细介绍 Hadoop 伪分布式安装的步骤及相关配置。

二、安装前准备

1、安装 JDK

- 下载 JDK 安装包，并解压到指定目录。

- 配置环境变量：

- 编辑 /etc/profile 文件，添加以下内容：

```

export JAVA_HOME=/your_path/jdk1.8.0_xxx

export PATH=$JAVA_HOME/bin:$PATH

```

- 使环境变量生效：

```

source /etc/profile

```

2、安装 SSH

- 确保系统已经安装了 SSH 服务。

- 测试 SSH 连接：

- 在终端中输入以下命令：

```

ssh localhost

```

- 如果出现以下提示，则说明 SSH 连接成功：

```

The authenticity of host 'localhost (127.0.0.1)' can't be established.

ECDSA key fingerprint is SHA256:xxxxxx.

Are you sure you want to continue connecting (yes/no)?

```

- 输入 yes 并按回车键，然后输入密码（如果有密码），如果密码正确，则可以登录到本地主机。

三、下载 Hadoop

1、下载 Hadoop 安装包

- 访问 Hadoop 官方网站（https://hadoop.apache.org/），下载 Hadoop 安装包。

- 选择适合你操作系统的版本，Hadoop 2.7.7 版本。

2、解压 Hadoop 安装包

- 将下载的 Hadoop 安装包解压到指定目录，/usr/local/hadoop。

四、配置 Hadoop

1、配置 core-site.xml 文件

- 打开 core-site.xml 文件，添加以下内容：

```

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

```

- fs.defaultFS：指定 Hadoop 的默认文件系统，这里设置为本地文件系统 hdfs://localhost:9000。

- hadoop.tmp.dir：指定 Hadoop 的临时目录，这里设置为 /usr/local/hadoop/tmp。

2、配置 hdfs-site.xml 文件

- 打开 hdfs-site.xml 文件，添加以下内容：

```

<name>dfs.replication</name>

</property>

</configuration>

```

- dfs.replication：指定 HDFS 的副本数，这里设置为 1，因为是伪分布式模式。

3、配置 mapred-site.xml 文件

- 打开 mapred-site.xml 文件，添加以下内容：

```

<name>mapreduce.framework.name</name>

</property>

</configuration>

```

- mapreduce.framework.name：指定 MapReduce 的框架名称，这里设置为 yarn。

4、配置 yarn-site.xml 文件

- 打开 yarn-site.xml 文件，添加以下内容：

```

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

- yarn.nodemanager.aux-services：指定 YARN 节点管理器的辅助服务，这里设置为 mapreduce_shuffle。

5、配置 slaves 文件

- 打开 slaves 文件，添加以下内容：

```

localhost

```

- 这里指定了 Hadoop 集群中的节点名称，这里只有一个节点，即本地主机。

五、启动 Hadoop

1、格式化 HDFS

- 打开终端，输入以下命令：

```

bin/hdfs namenode -format

```

- 这个命令会格式化 HDFS 文件系统，并创建必要的目录和文件。

2、启动 HDFS

- 打开终端，输入以下命令：

```

sbin/start-dfs.sh

```

- 这个命令会启动 HDFS 守护进程，包括 NameNode 和 DataNode。

3、启动 YARN

- 打开终端，输入以下命令：

```

sbin/start-yarn.sh

```

- 这个命令会启动 YARN 守护进程，包括 ResourceManager 和 NodeManager。

4、验证 Hadoop 安装

- 打开浏览器，输入以下地址：

```

http://localhost:50070

```

- 这个地址会显示 HDFS 的 NameNode 界面，你可以在上面查看 HDFS 的文件系统结构和文件状态。

- 打开浏览器，输入以下地址：

```

http://localhost:8088

```

- 这个地址会显示 YARN 的 ResourceManager 界面，你可以在上面查看 YARN 的资源使用情况和任务状态。

六、使用 Hadoop

1、创建目录

- 打开终端，输入以下命令：

```

bin/hdfs dfs -mkdir /user/hadoop

```

- 这个命令会在 HDFS 中创建一个名为 /user/hadoop 的目录。

2、上传文件

- 打开终端，输入以下命令：

```

bin/hdfs dfs -put /your_path/local_file /user/user/hadoop

```

- 这个命令会将本地文件 /your_path/local_file 上传到 HDFS 中的 /user/user/hadoop 目录。

3、下载文件

- 打开终端，输入以下命令：

```

bin/hdfs dfs -get /user/hadoop/remote_file /your_path/local_file

```

- 这个命令会将 HDFS 中的 /user/hadoop/remote_file 文件下载到本地目录 /your_path/local_file。

4、运行 MapReduce 程序

- 编写 MapReduce 程序，并将其打包成 JAR 文件。

- 打开终端，输入以下命令：

```

bin/hadoop jar /your_path/your_jar_file /input /output

```

- 这个命令会在 Hadoop 集群上运行 MapReduce 程序，/input 是输入目录，/output 是输出目录。

七、总结

本文详细介绍了 Hadoop 伪分布式安装的步骤及相关配置，通过本文的学习，你可以在单机上模拟出一个分布式的 Hadoop 环境，并进行 Hadoop 开发和测试，希望本文对你有所帮助。

标签： #Hadoop #伪分布式 #安装 #步骤