本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的分布式计算框架,已经成为处理大规模数据集的利器,本文将详细讲解Hadoop伪分布式环境搭建的全过程,帮助您轻松入门大数据处理。
环境准备
1、操作系统:Linux(推荐CentOS 7)
图片来源于网络,如有侵权联系删除
2、JDK:Java Development Kit(推荐1.8)
3、Hadoop:Hadoop-2.7.3(或更高版本)
安装步骤
1、安装JDK
(1)下载JDK安装包:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
(2)解压安装包:tar -zxvf jdk-8u231-linux-x64.tar.gz
(3)设置环境变量:编辑profile文件,添加以下内容
export JAVA_HOME=/usr/local/java/jdk1.8.0_231 export PATH=$PATH:$JAVA_HOME/bin
(4)使配置生效:source /etc/profile
2、安装Hadoop
(1)下载Hadoop安装包:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
(2)解压安装包:tar -zxvf hadoop-2.7.3.tar.gz
(3)设置环境变量:编辑profile文件,添加以下内容
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3 export PATH=$PATH:$HADOOP_HOME/bin
(4)使配置生效:source /etc/profile
图片来源于网络,如有侵权联系删除
3、配置Hadoop
(1)进入Hadoop安装目录:cd /usr/local/hadoop/hadoop-2.7.3
(2)修改配置文件:编辑hadoop-env.sh,设置JDK路径
export JAVA_HOME=/usr/local/java/jdk1.8.0_231
(3)修改配置文件:编辑core-site.xml,设置Hadoop运行的主机名
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/hadoop-2.7.3/tmp</value> </property> </configuration>
(4)修改配置文件:编辑hdfs-site.xml,设置HDFS的副本数量和存储路径
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/hadoop-2.7.3/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/hadoop-2.7.3/hdfs/datanode</value> </property> </configuration>
(5)修改配置文件:编辑mapred-site.xml,设置MapReduce运行的主机名
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(6)修改配置文件:编辑yarn-site.xml,设置YARN的运行参数
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hosts</name> <value>localhost</value> </property> </configuration>
4、格式化HDFS
进入Hadoop安装目录,执行以下命令格式化HDFS
hadoop namenode -format
5、启动Hadoop服务
(1)启动NameNode
start-dfs.sh
(2)启动Secondary NameNode
图片来源于网络,如有侵权联系删除
start-SecondaryNameNode.sh
(3)启动ResourceManager
start-yarn.sh
(4)启动NodeManager
yarn-daemon.sh start nodemanager
验证环境
1、查看NameNode状态
jps
出现NameNode进程,表示NameNode已启动。
2、查看ResourceManager状态
jps
出现ResourceManager进程,表示ResourceManager已启动。
3、测试HDFS文件系统
hdfs dfs -put /etc/passwd /user/hadoop/passwd hdfs dfs -ls /
出现 passwd 文件,表示HDFS文件系统已正常工作。
通过以上步骤,您已经成功搭建了Hadoop伪分布式环境,您可以开始学习Hadoop的各项功能,如MapReduce、Hive、HBase等,逐步掌握大数据处理技能,祝您学习愉快!
标签: #hadoop伪分布式环境搭建步骤
评论列表