本文目录导读:
环境准备
1、操作系统:Linux系统,推荐使用CentOS 7。
图片来源于网络,如有侵权联系删除
2、Java环境:Hadoop需要Java环境,版本建议为Java 8。
3、网络环境:确保集群中所有节点之间可以互相通信。
4、数据盘:至少一块大于200GB的硬盘用于存储数据。
Hadoop版本选择
目前,Hadoop社区有多个版本,如Hadoop 2.x和Hadoop 3.x,这里以Hadoop 3.3.4为例进行讲解。
安装步骤
1、下载Hadoop 3.3.4安装包:从Apache Hadoop官网下载Hadoop 3.3.4安装包。
2、解压安装包:将下载的Hadoop 3.3.4安装包解压到指定目录,home/hadoop/hadoop-3.3.4。
3、配置环境变量:编辑.bashrc文件,添加以下内容:
export HADOOP_HOME=/home/hadoop/hadoop-3.3.4 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4、使环境变量生效:执行source ~/.bashrc命令。
图片来源于网络,如有侵权联系删除
5、修改Hadoop配置文件:
(1)编辑hadoop-env.sh文件,配置Java环境:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
(2)编辑core-site.xml文件,配置Hadoop运行时的系统属性:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop-3.3.4/tmp</value> </property> </configuration>
(3)编辑hdfs-site.xml文件,配置HDFS的副本因子和数据存储路径:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/home/hadoop/hadoop-3.3.4/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/home/hadoop/hadoop-3.3.4/hdfs/data</value> </property> </configuration>
(4)编辑yarn-site.xml文件,配置YARN运行时的系统属性:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> </configuration>
6、格式化NameNode:
hdfs namenode -format
7、启动Hadoop集群:
(1)启动NameNode:
图片来源于网络,如有侵权联系删除
start-dfs.sh
(2)启动ResourceManager:
start-yarn.sh
(3)启动HistoryServer:
mr-jobhistory-daemon.sh start historyserver
8、检查集群状态:
(1)查看NameNode状态:
jps
(2)查看ResourceManager状态:
jps
(3)查看HistoryServer状态:
jps
通过以上步骤,您已经成功搭建了一个Hadoop完全分布式集群,在实际应用中,您可以根据需要调整Hadoop配置文件,以满足不同的业务需求,为了提高集群的稳定性和性能,建议定期对集群进行维护和优化。
标签: #hadoop完全分布式集群搭建全过程
评论列表