本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的分布式计算框架,被广泛应用于大数据处理和分析,本文将详细讲解如何在三台虚拟机上搭建Hadoop集群,包括环境准备、集群配置、Hadoop安装、集群启动和测试等步骤,以下是详细的教程。
环境准备
1、准备三台虚拟机,操作系统建议为Linux,本文以CentOS 7为例。
2、配置虚拟机网络,确保三台虚拟机可以相互通信。
图片来源于网络,如有侵权联系删除
3、安装Java环境,Hadoop依赖于Java运行,版本建议为1.8。
4、安装SSH服务,方便远程登录和管理虚拟机。
集群配置
1、配置主机名
在每台虚拟机的/etc/hosts
文件中添加以下内容:
192、168.1.101 hadoop-master 192、168.1.102 hadoop-slave1 192、168.1.103 hadoop-slave2
hadoop-master
为主节点,hadoop-slave1
和hadoop-slave2
为从节点。
2、配置SSH免密登录
在每台虚拟机上生成密钥对,并授权公钥:
ssh-keygen -t rsa ssh-copy-id root@hadoop-master ssh-copy-id root@hadoop-slave1 ssh-copy-id root@hadoop-slave2
Hadoop安装
1、下载Hadoop
访问Hadoop官网(https://hadoop.apache.org/)下载适合Linux系统的Hadoop版本,本文以Hadoop 3.2.1为例。
2、解压Hadoop
将下载的Hadoop压缩包解压到虚拟机的/opt
目录下:
tar -zxvf hadoop-3.2.1.tar.gz -C /opt/
3、配置环境变量
图片来源于网络,如有侵权联系删除
在每台虚拟机的/etc/profile
文件中添加以下内容:
export HADOOP_HOME=/opt/hadoop-3.2.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出编辑器,然后执行以下命令使配置生效:
source /etc/profile
集群启动
1、格式化HDFS
在主节点上执行以下命令,格式化HDFS:
hdfs namenode -format
2、启动Hadoop服务
在主节点上执行以下命令,启动Hadoop服务:
start-dfs.sh
可以通过浏览器访问http://hadoop-master:50070
查看HDFS Web界面。
3、启动YARN服务
在主节点上执行以下命令,启动YARN服务:
start-yarn.sh
可以通过浏览器访问http://hadoop-master:8088
查看YARN Web界面。
集群测试
1、创建HDFS文件
在主节点上执行以下命令,创建一个HDFS文件:
图片来源于网络,如有侵权联系删除
hdfs dfs -put /opt/hadoop-3.2.1/LICENSE LICENSE
2、查看文件
在主节点上执行以下命令,查看文件:
hdfs dfs -ls /
输出结果应包含LICENSE
文件。
3、运行MapReduce程序
在主节点上执行以下命令,运行一个简单的MapReduce程序:
hadoop jar /opt/hadoop-3.2.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar wordcount /LICENSE /output
4、查看输出结果
在主节点上执行以下命令,查看输出结果:
hdfs dfs -cat /output/part-r-00000
输出结果应包含单词LICENSE
及其出现次数。
本文详细介绍了如何在三台虚拟机上搭建Hadoop集群,包括环境准备、集群配置、Hadoop安装、集群启动和测试等步骤,通过本文的学习,读者可以掌握Hadoop集群的搭建过程,为后续的大数据处理和分析打下基础。
标签: #hadoop集群3台虚拟机搭建完整教程
评论列表