本文目录导读:
图片来源于网络,如有侵权联系删除
随着大数据时代的到来,Hadoop 作为一款强大的分布式计算框架,已经成为处理海量数据的首选工具,本文将详细阐述如何从零开始,搭建一个基于 Hadoop 3.3.6 的完全分布式环境,帮助您快速掌握大数据平台的建设与运维。
环境准备
在开始搭建 Hadoop 完全分布式环境之前,我们需要准备以下硬件和软件:
1、硬件要求:
- 至少两台物理服务器或虚拟机,推荐配置为:CPU 2核,内存4GB,硬盘100GB。
- 网络环境:确保服务器之间可以正常通信。
2、软件要求:
- 操作系统:Linux 发行版,如 Ubuntu、CentOS 等。
- Java 环境:JDK 1.8 或更高版本。
- Hadoop 3.3.6 版本。
搭建步骤
1、服务器配置
(1)设置主机名和IP地址
登录到每台服务器,编辑/etc/hosts
文件,添加以下内容:
<服务器IP地址> <服务器主机名>
(2)设置静态IP地址
以 CentOS 为例,编辑/etc/sysconfig/network-scripts/ifcfg-ens33
文件,添加以下内容:
TYPE=Ethernet BOOTPROTO=static DEFROUTE=yes PEERDNS=yes IPV4_FAILURE_FATAL=no NAME=ens33 UUID=... DEVICE=ens33 ONBOOT=yes IPADDR=<服务器IP地址> NETMASK=<子网掩码> GATEWAY=<网关地址>
重启网络服务:
systemctl restart network
2、安装 Java 环境
(1)下载 JDK 安装包
图片来源于网络,如有侵权联系删除
访问 Oracle 官网下载 JDK 1.8 或更高版本的安装包。
(2)安装 JDK
解压下载的 JDK 安装包到/usr/local/
目录下,创建名为java
的文件夹:
tar -xvf jdk-8u<版本号>-linux-x64.tar.gz -C /usr/local/java
编辑/etc/profile
文件,添加以下内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_<版本号> export PATH=$PATH:$JAVA_HOME/bin
使配置生效:
source /etc/profile
验证 JDK 是否安装成功:
java -version
3、安装 Hadoop
(1)下载 Hadoop 安装包
访问 Apache Hadoop 官网下载 Hadoop 3.3.6 版本的安装包。
(2)安装 Hadoop
解压下载的 Hadoop 安装包到/usr/local/
目录下,创建名为hadoop
的文件夹:
tar -xvf hadoop-3.3.6.tar.gz -C /usr/local/hadoop
配置 Hadoop 环境变量:
编辑/etc/profile
文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source /etc/profile
4、配置 Hadoop
(1)修改hadoop-env.sh
编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh
文件,设置JAVA_HOME
:
图片来源于网络,如有侵权联系删除
export JAVA_HOME=/usr/local/java/jdk1.8.0_<版本号>
(2)修改core-site.xml
编辑/usr/local/hadoop/etc/hadoop/core-site.xml
文件,添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://<主节点IP>:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/data</value> </property> </configuration>
(3)修改hdfs-site.xml
编辑/usr/local/hadoop/etc/hadoop/hdfs-site.xml
文件,添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/data/hdfs/datanode</value> </property> </configuration>
(4)修改mapred-site.xml
编辑/usr/local/hadoop/etc/hadoop/mapred-site.xml
文件,添加以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(5)修改yarn-site.xml
编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml
文件,添加以下内容:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.host</name> <value><主节点IP></value> </property> </configuration>
5、格式化 HDFS
在主节点上执行以下命令,格式化 HDFS:
hdfs namenode -format
6、启动 Hadoop 集群
在主节点上执行以下命令,启动 Hadoop 集群:
start-dfs.sh start-yarn.sh
Hadoop 完全分布式环境已搭建完成,您可以通过浏览器访问http://<主节点IP>:8088
和http://<主节点IP>:8042
来查看 HDFS 和 YARN 的 Web 界面。
本文详细介绍了如何从零开始搭建 Hadoop 3.3.6 完全分布式环境,通过本文的步骤,您可以快速掌握大数据平台的建设与运维,在实际应用中,请根据具体需求对 Hadoop 集群进行优化和调整。
标签: #hadoop3.3.6完全分布式搭建
评论列表