本文目录导读:
实验目的
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,凭借其分布式存储和计算能力,在各个领域得到了广泛应用,本实验旨在通过搭建Hadoop完全分布式集群,让学生深入了解Hadoop的工作原理,掌握Hadoop集群的搭建过程,从而为以后从事大数据相关工作奠定基础。
1、环境准备
(1)操作系统:Linux系统(如CentOS、Ubuntu等)
图片来源于网络,如有侵权联系删除
(2)Java环境:JDK 1.8及以上版本
(3)Hadoop版本:选择稳定版本,如Hadoop 3.x
2、集群搭建
(1)主机配置
准备3台服务器,分别命名为Node1、Node2和Node3,其中Node1作为NameNode,Node2和Node3作为DataNode。
(2)软件安装
① 安装JDK
在每台服务器上,通过以下命令安装JDK:
sudo yum install -y java-1.8.0-openjdk
② 安装Hadoop
在每台服务器上,通过以下命令下载并解压Hadoop:
sudo yum install -y wget wget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz tar -zxvf hadoop-3.3.4.tar.gz -C /opt/hadoop
(3)环境变量配置
在每台服务器的/etc/profile
文件中添加以下内容:
图片来源于网络,如有侵权联系删除
export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后执行source /etc/profile
使配置生效。
(4)配置文件修改
① 修改hadoop-env.sh
在NameNode和DataNode上,找到hadoop-env.sh
文件,修改以下内容:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
② 修改core-site.xml
在NameNode和DataNode上,找到core-site.xml
文件,添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node1:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop/data/tmp</value> </property> </configuration>
③ 修改hdfs-site.xml
在NameNode和DataNode上,找到hdfs-site.xml
文件,添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop/data/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop/data/hdfs/data</value> </property> </configuration>
④ 修改mapred-site.xml
在每台服务器上,找到mapred-site.xml
文件,添加以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
⑤ 修改yarn-site.xml
在每台服务器上,找到yarn-site.xml
文件,添加以下内容:
图片来源于网络,如有侵权联系删除
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>node1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
3、集群启动
(1)格式化NameNode
在NameNode上,通过以下命令格式化NameNode:
hdfs namenode -format
(2)启动HDFS
在每台服务器上,通过以下命令启动HDFS:
start-dfs.sh
(3)启动YARN
在每台服务器上,通过以下命令启动YARN:
start-yarn.sh
4、集群验证
通过以下命令验证集群是否启动成功:
jps
在NameNode上,应该有NameNode、SecondaryNameNode和ResourceManager进程;在DataNode上,应该有DataNode和NodeManager进程。
通过本实验,学生掌握了Hadoop完全分布式集群的搭建过程,了解了Hadoop的工作原理,在以后的学习和工作中,可以结合实际需求,对Hadoop集群进行优化和扩展,实现高效的大数据处理与存储。
标签: #搭建hadoop完全分布式集群
评论列表