本文目录导读:
图片来源于网络,如有侵权联系删除
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,已经成为企业级应用的首选,本文将详细介绍如何从零开始搭建一个Hadoop分布式集群,包括环境准备、集群配置、集群启动、测试等环节。
环境准备
1、操作系统:选择一个稳定、兼容性好的操作系统,如CentOS 7、Ubuntu 18.04等。
2、JDK:Hadoop基于Java开发,需要安装JDK 1.8及以上版本。
3、Hadoop:下载最新版本的Hadoop,解压到指定目录。
4、网络环境:确保集群中的所有节点之间能够正常通信。
集群配置
1、配置集群角色
Hadoop集群主要由以下角色组成:
(1)NameNode:负责管理整个文件系统的命名空间,存储元数据信息。
(2)DataNode:负责存储实际的数据块,响应客户端的读写请求。
(3)Secondary NameNode:负责定期备份NameNode的元数据信息。
根据实际需求,配置集群角色数量。
图片来源于网络,如有侵权联系删除
2、修改Hadoop配置文件
(1)修改hadoop-env.sh
:配置JDK路径。
(2)修改core-site.xml
:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-3.3.4/tmp</value> </property> </configuration>
(3)修改hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop-3.3.4/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop-3.3.4/hdfs/datanode</value> </property> </configuration>
(4)修改yarn-site.xml
:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>master:8032</value> </property> <property> <name>yarn.nodemanager.address</name> <value>master:12380</value> </property> </configuration>
(5)修改mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
3、配置集群节点
(1)配置hosts
文件:在所有节点上修改hosts
文件,将集群中所有节点的IP和主机名对应关系添加进去。
(2)配置SSH免密登录:在所有节点上生成SSH密钥对,并将公钥复制到其他节点。
集群启动
1、格式化NameNode
hdfs namenode -format
2、启动HDFS
图片来源于网络,如有侵权联系删除
start-dfs.sh
3、启动YARN
start-yarn.sh
4、查看集群状态
jps
测试集群
1、创建HDFS文件系统
hdfs dfs -mkdir -p /user/hadoop
2、上传文件到HDFS
hdfs dfs -put /etc/passwd /user/hadoop/
3、查看HDFS文件
hdfs dfs -ls /user/hadoop
4、启动MapReduce任务
hadoop jar /opt/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /user/hadoop/passwd /user/hadoop/output
5、查看MapReduce任务结果
hdfs dfs -cat /user/hadoop/output/part-r-00000
本文详细介绍了如何从零开始搭建一个Hadoop分布式集群,包括环境准备、集群配置、集群启动、测试等环节,通过本文的学习,读者可以掌握Hadoop集群搭建的基本技能,为后续的大数据处理应用打下基础。
标签: #hadoop分布式集群搭建
评论列表