本文目录导读:
环境准备
1、操作系统:推荐使用CentOS 7.0以上版本。
2、JDK:推荐使用JDK 1.8。
3、Hadoop版本:推荐使用Hadoop 3.x。
图片来源于网络,如有侵权联系删除
集群规划
1、集群节点规划:根据实际需求,确定集群节点数量,例如3个节点,分别为主节点(NameNode)、从节点(DataNode)和资源管理器节点(ResourceManager)。
2、网络规划:确保集群节点之间能够正常通信,可以使用私有网络,并设置合理的IP地址段。
安装JDK
1、下载JDK:前往Oracle官网下载JDK 1.8版本。
2、上传JDK:将下载的JDK文件上传至集群所有节点的/opt
目录下。
3、解压JDK:在集群所有节点上,执行以下命令解压JDK:
tar -zxvf jdk-8u251-linux-x64.tar.gz -C /usr/local
4、设置环境变量:在集群所有节点的/etc/profile
文件中添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_251 export PATH=$PATH:$JAVA_HOME/bin
5、使环境变量生效:在集群所有节点上执行以下命令:
source /etc/profile
安装Hadoop
1、下载Hadoop:前往Apache Hadoop官网下载Hadoop 3.x版本。
2、上传Hadoop:将下载的Hadoop文件上传至集群所有节点的/opt
目录下。
3、解压Hadoop:在集群所有节点上,执行以下命令解压Hadoop:
图片来源于网络,如有侵权联系删除
tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local
4、设置环境变量:在集群所有节点的/etc/profile
文件中添加以下内容:
export HADOOP_HOME=/usr/local/hadoop-3.3.4 export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin
5、使环境变量生效:在集群所有节点上执行以下命令:
source /etc/profile
配置Hadoop
1、配置集群名称:在集群所有节点的$HADOOP_HOME/etc/hadoop/core-site.xml
文件中添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.3.4/tmp</value> </property> </configuration>
2、配置HDFS:在集群所有节点的$HADOOP_HOME/etc/hadoop/hdfs-site.xml
文件中添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop-3.3.4/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop-3.3.4/hdfs/datanode</value> </property> </configuration>
3、配置YARN:在集群所有节点的$HADOOP_HOME/etc/hadoop/yarn-site.xml
文件中添加以下内容:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
4、配置SSH免密登录:在集群所有节点上,执行以下命令生成密钥:
ssh-keygen -t rsa -P '' -C 'your_email@example.com'
将生成的公钥文件~/.ssh/id_rsa.pub
追加到所有节点的~/.ssh/authorized_keys
文件中。
启动集群
1、格式化NameNode:在主节点上执行以下命令:
hdfs namenode -format
2、启动HDFS:在主节点上执行以下命令:
start-dfs.sh
3、启动YARN:在主节点上执行以下命令:
图片来源于网络,如有侵权联系删除
start-yarn.sh
4、验证集群:在主节点上执行以下命令,查看集群状态:
jps
主节点上应该会显示NameNode、ResourceManager和JVM进程。
注意事项
1、确保集群节点之间网络畅通,否则可能导致集群无法启动。
2、在配置集群时,注意配置文件路径和内容,避免配置错误。
3、确保集群所有节点的JDK和Hadoop版本一致,避免因版本不一致导致的问题。
4、在集群运行过程中,注意观察日志文件,及时发现并解决问题。
5、集群配置完成后,建议进行压力测试,以确保集群稳定运行。
通过以上步骤,您已经成功搭建了一个Hadoop集群,在实际应用中,您可以根据需求对集群进行扩展或优化,祝您使用愉快!
标签: #hadoop集群完全分布式搭建详细步骤
评论列表