本文目录导读:
《Hadoop伪分布式搭建全流程解析》
环境准备
1、操作系统选择与安装
- 推荐使用Linux系统,如Ubuntu或CentOS,这里以Ubuntu为例,首先需要下载合适版本的Ubuntu镜像文件,然后通过虚拟机(如VMware Workstation或VirtualBox)进行安装,在安装过程中,要注意合理分配磁盘空间、内存和CPU资源,对于Hadoop伪分布式环境,至少分配2GB内存、20GB磁盘空间以及1 - 2个CPU核心。
2、Java环境安装
图片来源于网络,如有侵权联系删除
- Hadoop运行依赖于Java环境,首先检查系统是否已经安装Java,如果没有,通过以下步骤安装。
- 在Ubuntu系统中,打开终端,执行命令sudo apt - get update
更新软件包列表,然后执行sudo apt - get install openjdk - 8 - jdk
(这里以安装Java 8为例),安装完成后,通过java - version
命令检查Java是否安装成功。
3、网络配置
- 确保虚拟机网络连接方式为NAT或桥接模式,如果是NAT模式,需要设置端口转发以便外部能够访问虚拟机中的Hadoop服务,对于桥接模式,要确保虚拟机与宿主机在同一网段,并且没有IP地址冲突。
- 在Ubuntu系统中,编辑/etc/network/interfaces
文件,配置静态IP地址(如果需要),
```
auto eth0
iface eth0 inet static
address 192.168.1.100
netmask 255.255.255.0
gateway 192.168.1.1
```
然后执行sudo service networking restart
使网络配置生效。
Hadoop安装
1、下载Hadoop
- 前往Hadoop官方网站(https://hadoop.apache.org/)下载合适版本的Hadoop,选择较稳定的Hadoop 3.x版本,将下载的压缩包(如hadoop - 3.3.0.tar.gz)上传到Ubuntu系统中的指定目录,如/home/user/software
。
2、解压Hadoop
- 在终端中进入到/home/user/software
目录,执行命令tar - zxvf hadoop - 3.3.0.tar.gz
将Hadoop解压到当前目录下,得到hadoop - 3.3.0
文件夹,然后将该文件夹移动到/usr/local
目录下,执行命令sudo mv hadoop - 3.3.0 /usr/local/hadoop
。
3、配置Hadoop环境变量
- 编辑~/.bashrc
文件,添加以下内容:
```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
保存文件后,在终端执行source ~/.bashrc
使环境变量生效。
Hadoop伪分布式配置
1、核心配置文件(core - site.xml)
- 进入/usr/local/hadoop/etc/hadoop
目录,编辑core - site.xml
文件,添加以下配置内容:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
图片来源于网络,如有侵权联系删除
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
这里将Hadoop的默认文件系统设置为HDFS,并指定了NameNode运行在本地的9000端口。
2、HDFS配置文件(hdfs - site.xml)
- 在相同目录下编辑hdfs - site.xml
文件,添加如下配置:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/hadoop - data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/hadoop - data/datanode</value>
</property>
</configuration>
```
其中dfs.replication
设置为1,因为是伪分布式环境,数据副本数为1,同时指定了NameNode和Datanode的数据存储目录。
3、MapReduce配置文件(mapred - site.xml)
- 编辑mapred - site.xml
文件(如果没有则从模板复制一个),配置如下:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
图片来源于网络,如有侵权联系删除
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
将MapReduce的框架名称设置为YARN。
4、YARN配置文件(yarn - site.xml)
- 编辑yarn - site.xml
文件,添加以下配置:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
```
这里指定了YARN的NodeManager辅助服务以及ResourceManager运行在本地主机。
启动与测试
1、格式化HDFS
- 在终端中执行hdfs namenode - format
命令,该命令会初始化HDFS,创建相关的文件系统结构和元数据存储目录,注意,如果之前已经格式化过,再次格式化可能会导致数据丢失。
2、启动Hadoop服务
- 首先启动HDFS,执行命令start - dfs.sh
,然后启动YARN,执行命令start - yarn.sh
,可以通过jps
命令查看启动的进程,应该看到NameNode、DataNode、ResourceManager和NodeManager等进程。
3、测试Hadoop
- 可以通过运行一些简单的Hadoop示例任务来测试伪分布式环境是否搭建成功,执行hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop - mapreduce - examples - 3.3.0.jar pi 2 10
,这个命令会计算圆周率的近似值,如果任务能够正常运行并得到结果,说明Hadoop伪分布式环境搭建成功。
通过以上步骤,就可以成功搭建Hadoop伪分布式环境,为进一步学习和研究Hadoop相关技术奠定了基础,在搭建过程中,要注意各个配置文件的正确设置以及服务启动顺序等细节问题。
评论列表