标题:Hadoop 伪分布式安装详细步骤及详解
一、引言
Hadoop 是一个开源的分布式计算框架,它可以处理大规模数据,并提供高可靠、高可用和高可扩展性的计算能力,Hadoop 伪分布式模式是 Hadoop 安装的一种模式,它可以在一台单机上模拟出一个分布式的 Hadoop 环境,方便开发者进行 Hadoop 开发和测试,本文将详细介绍 Hadoop 伪分布式安装的步骤及相关配置。
二、安装前准备
1、安装 JDK
- 下载 JDK 安装包,并解压到指定目录。
- 配置环境变量:
- 编辑 /etc/profile 文件,添加以下内容:
```
export JAVA_HOME=/your_path/jdk1.8.0_xxx
export PATH=$JAVA_HOME/bin:$PATH
```
- 使环境变量生效:
```
source /etc/profile
```
2、安装 SSH
- 确保系统已经安装了 SSH 服务。
- 测试 SSH 连接:
- 在终端中输入以下命令:
```
ssh localhost
```
- 如果出现以下提示,则说明 SSH 连接成功:
```
The authenticity of host 'localhost (127.0.0.1)' can't be established.
ECDSA key fingerprint is SHA256:xxxxxx.
Are you sure you want to continue connecting (yes/no)?
```
- 输入 yes 并按回车键,然后输入密码(如果有密码),如果密码正确,则可以登录到本地主机。
三、下载 Hadoop
1、下载 Hadoop 安装包
- 访问 Hadoop 官方网站(https://hadoop.apache.org/),下载 Hadoop 安装包。
- 选择适合你操作系统的版本,Hadoop 2.7.7 版本。
2、解压 Hadoop 安装包
- 将下载的 Hadoop 安装包解压到指定目录,/usr/local/hadoop。
四、配置 Hadoop
1、配置 core-site.xml 文件
- 打开 core-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
```
- fs.defaultFS:指定 Hadoop 的默认文件系统,这里设置为本地文件系统 hdfs://localhost:9000。
- hadoop.tmp.dir:指定 Hadoop 的临时目录,这里设置为 /usr/local/hadoop/tmp。
2、配置 hdfs-site.xml 文件
- 打开 hdfs-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
- dfs.replication:指定 HDFS 的副本数,这里设置为 1,因为是伪分布式模式。
3、配置 mapred-site.xml 文件
- 打开 mapred-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- mapreduce.framework.name:指定 MapReduce 的框架名称,这里设置为 yarn。
4、配置 yarn-site.xml 文件
- 打开 yarn-site.xml 文件,添加以下内容:
```
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
- yarn.nodemanager.aux-services:指定 YARN 节点管理器的辅助服务,这里设置为 mapreduce_shuffle。
5、配置 slaves 文件
- 打开 slaves 文件,添加以下内容:
```
localhost
```
- 这里指定了 Hadoop 集群中的节点名称,这里只有一个节点,即本地主机。
五、启动 Hadoop
1、格式化 HDFS
- 打开终端,输入以下命令:
```
bin/hdfs namenode -format
```
- 这个命令会格式化 HDFS 文件系统,并创建必要的目录和文件。
2、启动 HDFS
- 打开终端,输入以下命令:
```
sbin/start-dfs.sh
```
- 这个命令会启动 HDFS 守护进程,包括 NameNode 和 DataNode。
3、启动 YARN
- 打开终端,输入以下命令:
```
sbin/start-yarn.sh
```
- 这个命令会启动 YARN 守护进程,包括 ResourceManager 和 NodeManager。
4、验证 Hadoop 安装
- 打开浏览器,输入以下地址:
```
http://localhost:50070
```
- 这个地址会显示 HDFS 的 NameNode 界面,你可以在上面查看 HDFS 的文件系统结构和文件状态。
- 打开浏览器,输入以下地址:
```
http://localhost:8088
```
- 这个地址会显示 YARN 的 ResourceManager 界面,你可以在上面查看 YARN 的资源使用情况和任务状态。
六、使用 Hadoop
1、创建目录
- 打开终端,输入以下命令:
```
bin/hdfs dfs -mkdir /user/hadoop
```
- 这个命令会在 HDFS 中创建一个名为 /user/hadoop 的目录。
2、上传文件
- 打开终端,输入以下命令:
```
bin/hdfs dfs -put /your_path/local_file /user/user/hadoop
```
- 这个命令会将本地文件 /your_path/local_file 上传到 HDFS 中的 /user/user/hadoop 目录。
3、下载文件
- 打开终端,输入以下命令:
```
bin/hdfs dfs -get /user/hadoop/remote_file /your_path/local_file
```
- 这个命令会将 HDFS 中的 /user/hadoop/remote_file 文件下载到本地目录 /your_path/local_file。
4、运行 MapReduce 程序
- 编写 MapReduce 程序,并将其打包成 JAR 文件。
- 打开终端,输入以下命令:
```
bin/hadoop jar /your_path/your_jar_file /input /output
```
- 这个命令会在 Hadoop 集群上运行 MapReduce 程序,/input 是输入目录,/output 是输出目录。
七、总结
本文详细介绍了 Hadoop 伪分布式安装的步骤及相关配置,通过本文的学习,你可以在单机上模拟出一个分布式的 Hadoop 环境,并进行 Hadoop 开发和测试,希望本文对你有所帮助。
评论列表