本文目录导读:
《Hadoop伪分布式环境搭建全流程》
准备工作
1、系统环境准备
- 选择合适的操作系统,如Ubuntu,确保系统已经安装并且网络连接正常,更新系统软件包,在Ubuntu系统下可以使用命令sudo apt - get update
和sudo apt - get upgrade
来更新系统。
2、安装Java环境
图片来源于网络,如有侵权联系删除
- Hadoop运行依赖于Java环境,可以通过命令sudo apt - get install openjdk - 8 - jdk
(以安装OpenJDK 8为例)安装Java,安装完成后,通过java - version
命令验证Java是否安装成功。
下载与解压Hadoop
1、下载Hadoop
- 从Hadoop官方网站(https://hadoop.apache.org/releases.html)下载适合版本的Hadoop,例如选择Hadoop 3.x版本,可以使用wget
命令进行下载,如wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz
。
2、解压Hadoop
- 使用命令tar - zxvf hadoop - 3.3.0.tar.gz
将下载的压缩包解压到指定目录,例如/usr/local
目录下,解压后的目录可以重命名为hadoop
方便管理,命令为mv hadoop - 3.3.0 hadoop
。
配置Hadoop
1、配置hadoop - env.sh
- 进入Hadoop的安装目录下的etc/hadoop
文件夹,找到hadoop - env.sh
文件,编辑该文件,设置Java环境变量,找到export JAVA_HOME =
这一行,将其修改为系统中Java的安装路径,例如export JAVA_HOME =/usr/lib/jvm/java - 8 - openjdk - amd64
。
2、配置core - site.xml
- 在etc/hadoop
文件夹中编辑core - site.xml
文件,添加以下配置内容:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
这里将Hadoop的默认文件系统设置为hdfs://localhost:9000
。
3、配置hdfs - site.xml
- 同样在etc/hadoop
文件夹中编辑hdfs - site.xml
文件,添加如下配置:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
图片来源于网络,如有侵权联系删除
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/hadoop_data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/hadoop_data/datanode</value>
</property>
</configuration>
```
其中dfs.replication
设置为1表示数据副本数为1,因为是伪分布式环境,后面的dfs.namenode.name.dir
和dfs.datanode.data.dir
分别设置了NameNode和DataNode的数据存储目录。
4、配置mapred - site.xml
- 从mapred - site.xml.template
复制得到mapred - site.xml
,然后编辑该文件,添加以下配置:
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
这里将MapReduce的框架名称设置为yarn
。
5、配置yarn - site.xml
- 编辑yarn - site.xml
文件,添加如下配置:
图片来源于网络,如有侵权联系删除
```xml
<?xml version="1.0" encoding="UTF - 8"?>
<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
其中yarn.resourcemanager.hostname
设置为localhost
表示资源管理器运行在本地。
格式化HDFS
1、执行格式化命令
- 在Hadoop安装目录下的sbin
文件夹中,执行命令./hdfs namenode - format
,这个命令会初始化Hadoop的文件系统,创建相关的目录结构,格式化操作只需要在首次搭建或者重新初始化文件系统时进行。
启动Hadoop服务
1、启动HDFS服务
- 在sbin
文件夹中执行./start - dfs.sh
命令来启动HDFS服务,启动后可以通过jps
命令查看进程,应该能看到NameNode
和DataNode
进程。
2、启动YARN服务
- 执行./start - yarn.sh
命令启动YARN服务,再次使用jps
命令查看进程,此时应该能看到ResourceManager
和NodeManager
进程。
验证Hadoop伪分布式环境
1、访问Hadoop Web界面
- 可以通过浏览器访问http://localhost:9870
(HDFS的Web界面)和http://localhost:8088
(YARN的Web界面)来查看Hadoop集群的状态信息,在HDFS的Web界面中,可以查看文件系统的使用情况、文件列表等;在YARN的Web界面中,可以查看任务的运行状态、资源使用情况等。
2、运行示例程序
- 在Hadoop安装目录下的share/hadoop/mapreduce
文件夹中有一些示例程序,例如hadoop - jar hadoop - mapreduce - examples - 3.3.0.jar pi 2 5
,这个命令会运行一个计算圆周率的示例程序,通过MapReduce框架在伪分布式环境下计算圆周率的近似值。
通过以上步骤,就可以成功搭建Hadoop伪分布式环境,并且可以进行后续的大数据处理和分析相关的学习与实践。
评论列表