本文目录导读:
图片来源于网络,如有侵权联系删除
《Hadoop伪分布式集群搭建全攻略》
环境准备
1、操作系统
- 选择合适的操作系统,例如Ubuntu或CentOS,这里以Ubuntu为例,确保系统已经安装并且网络连接正常。
2、Java环境安装
- 由于Hadoop是基于Java开发的,所以需要安装Java运行环境,首先检查系统是否已经安装Java,如果没有,可以通过以下命令安装OpenJDK:
- 在Ubuntu系统中,使用sudo apt - get update
更新软件包列表,然后执行sudo apt - get install openjdk - 8 - jdk
(这里以Java 8为例)。
- 安装完成后,通过java - version
命令检查Java版本是否正确安装。
Hadoop安装
1、下载Hadoop
- 访问Hadoop官方网站(https://hadoop.apache.org/),选择合适的版本进行下载,可以选择稳定版本的Hadoop二进制压缩包(如hadoop - 3.3.1.tar.gz)。
- 使用wget
命令在Linux系统中下载,例如wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.1/hadoop - 3.3.1.tar.gz
。
2、解压Hadoop
- 下载完成后,使用tar - zxvf hadoop - 3.3.1.tar.gz
命令将压缩包解压到指定目录,例如/usr/local/hadoop
(可以根据实际需求选择目录),如果/usr/local/hadoop
目录不存在,可以先创建该目录,使用mkdir - p /usr/local/hadoop
。
3、配置Hadoop环境变量
- 打开~/.bashrc
文件(使用vi ~/.bashrc
命令),在文件末尾添加以下内容:
export HADOOP_HOME = /usr/local/hadoop
export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 保存并退出文件后,执行source ~/.bashrc
使环境变量生效。
Hadoop伪分布式配置
1、核心配置文件(core - site.xml)
- 进入$HADOOP_HOME/etc/hadoop
目录,编辑core - site.xml
文件(使用vi core - site.xml
)。
- 在<configuration>
标签内添加以下配置:
<property>
<name>fs.defaultFS</name>
图片来源于网络,如有侵权联系删除
<value>hdfs://localhost:9000</value>
</property>
- 这里将Hadoop的默认文件系统设置为本地的HDFS,端口为9000。
2、HDFS配置文件(hdfs - site.xml)
- 编辑hdfs - site.xml
文件。
- 在<configuration>
标签内添加如下配置:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
- 因为是伪分布式,所以数据块的副本数设置为1。
3、MapReduce配置文件(mapred - site.xml)
- 从mapred - site.xml.template
复制一份得到mapred - site.xml
,执行cp mapred - site.xml.template mapred - site.xml
。
- 编辑mapred - site.xml
,添加以下配置:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
- 这里指定MapReduce使用YARN框架。
4、YARN配置文件(yarn - site.xml)
- 编辑yarn - site.xml
文件。
- 在<configuration>
标签内添加以下配置:
图片来源于网络,如有侵权联系删除
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
启动Hadoop
1、格式化HDFS
- 在首次启动Hadoop之前,需要格式化HDFS,进入$HADOOP_HOME/bin
目录,执行hdfs namenode - format
命令。
- 如果格式化成功,会看到相关的成功提示信息。
2、启动Hadoop服务
- 启动HDFS:执行start - dfs.sh
命令,可以通过jps
命令查看是否启动了NameNode
、DataNode
等相关进程。
- 启动YARN:执行start - yarn.sh
命令,再通过jps
命令查看是否启动了ResourceManager
和NodeManager
等进程。
验证Hadoop伪分布式集群
1、查看HDFS状态
- 通过浏览器访问http://localhost:9870
(Hadoop 3.x版本中HDFS的Web界面端口),可以查看HDFS的相关信息,如文件系统的使用情况、数据节点状态等。
2、查看YARN状态
- 在浏览器中访问http://localhost:8088
(YARN的Web界面端口),可以查看YARN集群的资源使用情况、任务运行状态等信息。
通过以上步骤,就可以成功搭建Hadoop伪分布式集群,并且可以在这个环境下进行Hadoop相关的开发和测试工作。
评论列表