本文目录导读:
Hadoop完全分布式集群概述
Hadoop是一种分布式计算框架,主要用于处理大规模数据集,Hadoop完全分布式集群由多个节点组成,包括NameNode、DataNode、Secondary NameNode和ResourceManager等,通过分布式文件系统(HDFS)和资源管理器(YARN)实现数据的存储和计算,本文将详细解析Hadoop完全分布式集群搭建步骤与细节。
搭建Hadoop完全分布式集群的准备工作
1、硬件环境
(1)服务器:建议使用4核CPU、16GB内存、1TB硬盘的服务器。
(2)操作系统:CentOS 7.0及以上版本。
图片来源于网络,如有侵权联系删除
(3)网络环境:保证各节点之间能够正常通信。
2、软件环境
(1)Java环境:安装Java 8或以上版本。
(2)Hadoop版本:本文以Hadoop 3.3.4为例。
(3)SSH免密登录:在各节点之间配置SSH免密登录,方便后续操作。
Hadoop完全分布式集群搭建步骤
1、配置主机名与IP地址
(1)编辑每个节点的/etc/hosts
文件,添加其他节点的IP地址和主机名。
(2)在/etc/sysconfig/network
文件中修改主机名。
(3)重启网络服务,使配置生效。
2、配置SSH免密登录
(1)在每个节点上生成密钥对:ssh-keygen -t rsa
。
(2)将公钥复制到其他节点:ssh-copy-id root@<其他节点IP>
。
3、配置防火墙
(1)关闭防火墙:systemctl stop firewalld
。
图片来源于网络,如有侵权联系删除
(2)设置开机自启:systemctl disable firewalld
。
4、配置内核参数
(1)编辑/etc/sysctl.conf
文件,添加以下内容:
vm.swappiness = 0 net.core.somaxconn = 65535
(2)使配置生效:sysctl -p
。
5、安装Java环境
(1)下载Java安装包:wget http://download.oracle.com/otn-pub/java/jdk/8u171-b11/2f38c3b165be4555a1faa389f7283b53/jdk-8u171-linux-x64.tar.gz
。
(2)解压安装包:tar -zxf jdk-8u171-linux-x64.tar.gz -C /usr/local/
。
(3)配置环境变量:vi /etc/profile
,添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_171 export PATH=$PATH:$JAVA_HOME/bin
(4)使配置生效:source /etc/profile
。
6、安装Hadoop
(1)下载Hadoop安装包:wget http://www.apache.org/dyn/closer.cgi?path=/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
。
(2)解压安装包:tar -zxf hadoop-3.3.4.tar.gz -C /usr/local/
。
(3)配置环境变量:vi /etc/profile
,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop-3.3.4 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(4)使配置生效:source /etc/profile
。
图片来源于网络,如有侵权联系删除
7、配置Hadoop
(1)修改/usr/local/hadoop-3.3.4/etc/hadoop/hadoop-env.sh
文件,设置Java环境:
export JAVA_HOME=/usr/local/jdk1.8.0_171
(2)修改/usr/local/hadoop-3.3.4/etc/hadoop/core-site.xml
文件,配置HDFS存储路径:
<property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.3.4/tmp</value> </property>
(3)修改/usr/local/hadoop-3.3.4/etc/hadoop/hdfs-site.xml
文件,配置HDFS参数:
<property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop-3.3.4/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop-3.3.4/hdfs/datanode</value> </property>
(4)修改/usr/local/hadoop-3.3.4/etc/hadoop/yarn-site.xml
文件,配置YARN参数:
<property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
(5)修改/usr/local/hadoop-3.3.4/etc/hadoop/mapred-site.xml
文件,配置MapReduce参数:
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
8、格式化NameNode
在master节点上执行以下命令:
hdfs namenode -format
9、启动Hadoop服务
(1)在master节点上启动HDFS服务:
start-dfs.sh
(2)在master节点上启动YARN服务:
start-yarn.sh
(3)在master节点上启动HistoryServer:
mr-jobhistory-daemon.sh start historyserver
通过以上步骤,成功搭建了Hadoop完全分布式集群,在实际应用中,可以根据需求对集群进行优化和扩展,希望本文对您有所帮助。
标签: #hadoop完全分布式集群搭建截图
评论列表