本文目录导读:
图片来源于网络,如有侵权联系删除
实验背景
随着大数据时代的到来,对大数据处理和分析的需求日益增长,Hadoop作为一款开源的大数据处理框架,在分布式存储和计算方面具有显著优势,为了更好地掌握Hadoop技术,我们进行了Hadoop分布式集群环境搭建实验。
实验目的
1、了解Hadoop分布式存储和计算原理;
2、掌握Hadoop分布式集群搭建流程;
3、熟悉Hadoop集群的日常维护和管理。
实验环境
1、操作系统:CentOS 7.2
2、Hadoop版本:Hadoop 3.2.1
3、虚拟机软件:VMware Workstation 15
4、服务器数量:3台
实验步骤
1、准备工作
(1)下载Hadoop 3.2.1安装包:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
(2)配置虚拟机:在VMware Workstation中创建3台虚拟机,分别命名为node1、node2和node3,配置CPU、内存和硬盘等资源。
(3)配置网络:将3台虚拟机连接到同一网络,设置IP地址和子网掩码。
2、配置主机名
(1)在node1虚拟机中,将主机名修改为hadoop-master:
vi /etc/hostname
(2)在node2虚拟机中,将主机名修改为hadoop-slave1:
vi /etc/hostname
(3)在node3虚拟机中,将主机名修改为hadoop-slave2:
图片来源于网络,如有侵权联系删除
vi /etc/hostname
3、配置hosts文件
(1)在node1虚拟机中,编辑hosts文件:
vi /etc/hosts
添加以下内容:
127、0.0.1 hadoop-master
(2)在node2虚拟机中,编辑hosts文件:
vi /etc/hosts
添加以下内容:
127、0.0.1 hadoop-slave1
(3)在node3虚拟机中,编辑hosts文件:
vi /etc/hosts
添加以下内容:
127、0.0.1 hadoop-slave2
4、配置SSH免密登录
(1)在node1虚拟机中,生成密钥:
ssh-keygen -t rsa
(2)将node1虚拟机的公钥复制到node2和node3虚拟机的~/.ssh/authorized_keys文件中:
ssh-copy-id hadoop-slave1 ssh-copy-id hadoop-slave2
5、配置Hadoop环境变量
(1)在node1、node2和node3虚拟机的~/.bash_profile文件中,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(2)使环境变量生效:
source ~/.bash_profile
6、解压Hadoop安装包并配置
(1)在node1虚拟机中,将Hadoop安装包解压到/usr/local目录下:
tar -zxvf hadoop-3.2.1.tar.gz -C /usr/local
(2)修改Hadoop配置文件:
图片来源于网络,如有侵权联系删除
(a)在hadoop-3.2.1目录下,找到etc/hadoop/core-site.xml文件,修改以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop-master:9000</value> </property> </configuration>
(b)在hadoop-3.2.1目录下,找到etc/hadoop/hdfs-site.xml文件,修改以下内容:
<configuration> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration>
(c)在hadoop-3.2.1目录下,找到etc/hadoop/mapred-site.xml文件,修改以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(d)在hadoop-3.2.1目录下,找到etc/hadoop/yarn-site.xml文件,修改以下内容:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop-master</value> </property> </configuration>
7、格式化HDFS文件系统
hdfs namenode -format
8、启动Hadoop集群
(1)在node1虚拟机中,启动NameNode:
start-dfs.sh
(2)在node1虚拟机中,启动ResourceManager:
start-yarn.sh
(3)在node1虚拟机中,启动HistoryServer:
mr-jobhistory-daemon.sh start historyserver
(4)在node2和node3虚拟机中,启动NodeManager:
start-yarn.sh
9、验证Hadoop集群
在浏览器中访问http://hadoop-master:50070/,查看HDFS文件系统;在浏览器中访问http://hadoop-master:8088/,查看YARN资源管理器。
通过本次实验,我们成功搭建了一个Hadoop分布式集群环境,在实验过程中,我们学习了Hadoop的分布式存储和计算原理,掌握了Hadoop分布式集群搭建流程,熟悉了Hadoop集群的日常维护和管理,这将为我们后续学习大数据技术奠定基础。
标签: #hadoop分布式集群搭建实验报告
评论列表