本文目录导读:
Hadoop是一款开源的分布式计算框架,广泛应用于大数据处理领域,本文将详细介绍Hadoop伪分布式集群的安装步骤,帮助读者轻松搭建高效的数据处理环境。
准备工作
1、操作系统:Linux(推荐CentOS 7)
2、软件包:JDK、Hadoop
图片来源于网络,如有侵权联系删除
3、硬件要求:2GB内存、40GB硬盘空间
4、网络环境:确保各节点之间可以互相通信
安装步骤
1、安装JDK
(1)下载JDK安装包:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
(2)解压安装包:tar -xvf jdk-8u241-linux-x64.tar.gz
(3)配置环境变量:编辑.bashrc文件,添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_241 export PATH=$JAVA_HOME/bin:$PATH
(4)使配置生效:source .bashrc
2、安装Hadoop
(1)下载Hadoop安装包:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
图片来源于网络,如有侵权联系删除
(2)解压安装包:tar -xvf hadoop-3.2.1.tar.gz
(3)配置Hadoop环境变量:编辑.bashrc文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop-3.2.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(4)使配置生效:source .bashrc
3、配置Hadoop
(1)编辑hadoop配置文件:cd $HADOOP_HOME/etc/hadoop
(2)修改core-site.xml:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop-3.2.1/tmp</value> </property> </configuration>
(3)修改hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop-3.2.1/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop-3.2.1/hdfs/datanode</value> </property> </configuration>
(4)修改mapred-site.xml:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(5)修改yarn-site.xml:
图片来源于网络,如有侵权联系删除
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
4、格式化NameNode
(1)运行以下命令格式化NameNode:
hdfs namenode -format
5、启动Hadoop集群
(1)启动HDFS:
start-dfs.sh
(2)启动YARN:
start-yarn.sh
(3)查看Hadoop服务状态:
jps
通过以上步骤,您已经成功搭建了一个Hadoop伪分布式集群,您可以根据自己的需求进行数据存储、处理和分析,祝您在使用Hadoop的过程中一切顺利!
评论列表