本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,受到了广泛关注,本文将详细介绍Hadoop的安装与伪分布式集群搭建过程,帮助读者快速掌握Hadoop环境搭建技巧。
Hadoop简介
Hadoop是一个由Apache软件基金会开发的开源分布式计算框架,主要用于处理海量数据,它具有高可靠性、高扩展性、高容错性等特点,适用于大数据处理、数据挖掘、机器学习等领域。
环境准备
1、操作系统:Linux(推荐CentOS 7)
图片来源于网络,如有侵权联系删除
2、JDK:Java Development Kit,版本1.8以上
3、网络环境:确保集群内各节点之间可以互相通信
4、软件资源:下载Hadoop安装包(版本3.2.1为例)
Hadoop安装与配置
1、安装JDK
确保Linux系统中已安装JDK,可以使用以下命令检查JDK版本:
java -version
若未安装JDK,可从Oracle官网下载JDK安装包,并按照官方教程进行安装。
2、安装Hadoop
(1)将Hadoop安装包上传到Linux服务器
(2)解压安装包
tar -zxvf hadoop-3.2.1.tar.gz
(3)设置Hadoop环境变量
图片来源于网络,如有侵权联系删除
在~/.bashrc
文件中添加以下内容:
export HADOOP_HOME=/usr/local/hadoop-3.2.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行以下命令使环境变量生效:
source ~/.bashrc
3、配置Hadoop
(1)修改hadoop-env.sh
文件
在$HADOOP_HOME/etc/hadoop
目录下,打开hadoop-env.sh
文件,修改以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_231
(2)修改core-site.xml
文件
在$HADOOP_HOME/etc/hadoop
目录下,打开core-site.xml
文件,修改以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.2.1/tmp</value> </property> </configuration>
(3)修改hdfs-site.xml
文件
在$HADOOP_HOME/etc/hadoop
目录下,打开hdfs-site.xml
文件,修改以下内容:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop-3.2.1/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop-3.2.1/hdfs/datanode</value> </property> </configuration>
(4)修改mapred-site.xml
文件
图片来源于网络,如有侵权联系删除
在$HADOOP_HOME/etc/hadoop
目录下,打开mapred-site.xml
文件,修改以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(5)修改yarn-site.xml
文件
在$HADOOP_HOME/etc/hadoop
目录下,打开yarn-site.xml
文件,修改以下内容:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> </configuration>
启动Hadoop集群
1、格式化NameNode
hdfs namenode -format
2、启动HDFS
start-dfs.sh
3、启动YARN
start-yarn.sh
测试Hadoop集群
1、在浏览器中访问HDFS Web界面
http://master:50070
2、在浏览器中访问YARN Web界面
http://master:8088
至此,Hadoop伪分布式集群搭建完成,您可以尝试使用Hadoop进行大数据处理、数据挖掘等工作。
评论列表