黑狐家游戏

hadoop伪分布式安装详细步骤,hadoop伪分布式安装搭建步骤

欧气 4 0

标题:Hadoop 伪分布式安装详细步骤及详解

一、引言

Hadoop 是一个开源的分布式计算框架,它可以处理大规模数据,并提供高可靠、高可用和高可扩展性的计算能力,Hadoop 伪分布式模式是 Hadoop 安装的一种模式,它可以在一台单机上模拟出一个分布式的 Hadoop 环境,方便开发者进行 Hadoop 开发和测试,本文将详细介绍 Hadoop 伪分布式安装的步骤及相关配置。

二、安装前准备

1、安装 JDK

- 下载 JDK 安装包,并解压到指定目录。

- 配置环境变量:

- 编辑 /etc/profile 文件,添加以下内容:

```

export JAVA_HOME=/your_path/jdk1.8.0_xxx

export PATH=$JAVA_HOME/bin:$PATH

```

- 使环境变量生效:

```

source /etc/profile

```

2、安装 SSH

- 确保系统已经安装了 SSH 服务。

- 测试 SSH 连接:

- 在终端中输入以下命令:

```

ssh localhost

```

- 如果出现以下提示,则说明 SSH 连接成功:

```

The authenticity of host 'localhost (127.0.0.1)' can't be established.

ECDSA key fingerprint is SHA256:xxxxxx.

Are you sure you want to continue connecting (yes/no)?

```

- 输入 yes 并按回车键,然后输入密码(如果有密码),如果密码正确,则可以登录到本地主机。

三、下载 Hadoop

1、下载 Hadoop 安装包

- 访问 Hadoop 官方网站(https://hadoop.apache.org/),下载 Hadoop 安装包。

- 选择适合你操作系统的版本,Hadoop 2.7.7 版本。

2、解压 Hadoop 安装包

- 将下载的 Hadoop 安装包解压到指定目录,/usr/local/hadoop。

四、配置 Hadoop

1、配置 core-site.xml 文件

- 打开 core-site.xml 文件,添加以下内容:

```

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

</configuration>

```

- fs.defaultFS:指定 Hadoop 的默认文件系统,这里设置为本地文件系统 hdfs://localhost:9000。

- hadoop.tmp.dir:指定 Hadoop 的临时目录,这里设置为 /usr/local/hadoop/tmp。

2、配置 hdfs-site.xml 文件

- 打开 hdfs-site.xml 文件,添加以下内容:

```

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

```

- dfs.replication:指定 HDFS 的副本数,这里设置为 1,因为是伪分布式模式。

3、配置 mapred-site.xml 文件

- 打开 mapred-site.xml 文件,添加以下内容:

```

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

```

- mapreduce.framework.name:指定 MapReduce 的框架名称,这里设置为 yarn。

4、配置 yarn-site.xml 文件

- 打开 yarn-site.xml 文件,添加以下内容:

```

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

- yarn.nodemanager.aux-services:指定 YARN 节点管理器的辅助服务,这里设置为 mapreduce_shuffle。

5、配置 slaves 文件

- 打开 slaves 文件,添加以下内容:

```

localhost

```

- 这里指定了 Hadoop 集群中的节点名称,这里只有一个节点,即本地主机。

五、启动 Hadoop

1、格式化 HDFS

- 打开终端,输入以下命令:

```

bin/hdfs namenode -format

```

- 这个命令会格式化 HDFS 文件系统,并创建必要的目录和文件。

2、启动 HDFS

- 打开终端,输入以下命令:

```

sbin/start-dfs.sh

```

- 这个命令会启动 HDFS 守护进程,包括 NameNode 和 DataNode。

3、启动 YARN

- 打开终端,输入以下命令:

```

sbin/start-yarn.sh

```

- 这个命令会启动 YARN 守护进程,包括 ResourceManager 和 NodeManager。

4、验证 Hadoop 安装

- 打开浏览器,输入以下地址:

```

http://localhost:50070

```

- 这个地址会显示 HDFS 的 NameNode 界面,你可以在上面查看 HDFS 的文件系统结构和文件状态。

- 打开浏览器,输入以下地址:

```

http://localhost:8088

```

- 这个地址会显示 YARN 的 ResourceManager 界面,你可以在上面查看 YARN 的资源使用情况和任务状态。

六、使用 Hadoop

1、创建目录

- 打开终端,输入以下命令:

```

bin/hdfs dfs -mkdir /user/hadoop

```

- 这个命令会在 HDFS 中创建一个名为 /user/hadoop 的目录。

2、上传文件

- 打开终端,输入以下命令:

```

bin/hdfs dfs -put /your_path/local_file /user/user/hadoop

```

- 这个命令会将本地文件 /your_path/local_file 上传到 HDFS 中的 /user/user/hadoop 目录。

3、下载文件

- 打开终端,输入以下命令:

```

bin/hdfs dfs -get /user/hadoop/remote_file /your_path/local_file

```

- 这个命令会将 HDFS 中的 /user/hadoop/remote_file 文件下载到本地目录 /your_path/local_file。

4、运行 MapReduce 程序

- 编写 MapReduce 程序,并将其打包成 JAR 文件。

- 打开终端,输入以下命令:

```

bin/hadoop jar /your_path/your_jar_file /input /output

```

- 这个命令会在 Hadoop 集群上运行 MapReduce 程序,/input 是输入目录,/output 是输出目录。

七、总结

本文详细介绍了 Hadoop 伪分布式安装的步骤及相关配置,通过本文的学习,你可以在单机上模拟出一个分布式的 Hadoop 环境,并进行 Hadoop 开发和测试,希望本文对你有所帮助。

标签: #Hadoop #伪分布式 #安装 #步骤

黑狐家游戏
  • 评论列表

留言评论