本文目录导读:
随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,受到了越来越多开发者的关注,本文将详细讲解如何在本地计算机上搭建Hadoop伪分布式集群,并配置开发环境,让读者能够轻松上手Hadoop。
准备工作
1、操作系统:Linux或Windows均可,本文以CentOS 7为例。
2、JDK:Hadoop需要Java环境,建议使用1.8或更高版本。
图片来源于网络,如有侵权联系删除
3、网络环境:确保本地计算机可以正常访问互联网。
4、软件资源:Hadoop、JDK等软件。
Hadoop伪分布式集群搭建
1、下载Hadoop
访问Hadoop官网(https://hadoop.apache.org/)下载最新版本的Hadoop,本文以Hadoop 3.3.1为例。
2、解压Hadoop
将下载的Hadoop压缩包解压到指定目录,
tar -zxvf hadoop-3.3.1.tar.gz -C /usr/local/hadoop
3、配置Hadoop
进入Hadoop解压后的目录,编辑etc/hadoop/hadoop-env.sh
文件,设置JDK路径:
图片来源于网络,如有侵权联系删除
export JAVA_HOME=/usr/local/jdk1.8.0_231
编辑etc/hadoop/core-site.xml
文件,设置Hadoop的存储路径:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/data/tmp</value> </property> </configuration>
编辑etc/hadoop/hdfs-site.xml
文件,设置HDFS的副本数量:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
4、格式化HDFS
在Hadoop根目录下,执行以下命令格式化HDFS:
bin/hdfs namenode -format
5、启动Hadoop
在Hadoop根目录下,执行以下命令启动Hadoop:
bin/start-all.sh
JPS命令会显示NameNode、SecondaryNameNode、DataNode和ResourceManager等进程正在运行。
配置开发环境
1、配置环境变量
图片来源于网络,如有侵权联系删除
在Linux系统中,编辑~/.bash_profile
文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
在Windows系统中,编辑%HOMEPATH%.bashrc
文件,添加以下内容:
set HADOOP_HOME=C:usrlocalhadoop set PATH=%PATH%;%HADOOP_HOME%in;%HADOOP_HOME%sbin
2、验证环境配置
在终端或命令提示符中,执行以下命令验证环境配置:
hadoop version
如果输出版本信息,说明Hadoop环境配置成功。
本文详细讲解了如何在本地计算机上搭建Hadoop伪分布式集群,并配置开发环境,通过本文的指导,读者可以轻松上手Hadoop,为后续的大数据处理学习打下坚实基础。
评论列表