本文目录导读:
Hadoop简介
Hadoop是一个开源的分布式计算框架,用于处理大规模数据集,它主要由HDFS(Hadoop Distributed File System,分布式文件系统)和MapReduce(分布式计算框架)两部分组成,Hadoop能够将数据分散存储在多台机器上,并利用集群的计算能力进行高效的数据处理。
Hadoop伪分布式集群安装步骤
1、环境准备
(1)操作系统:CentOS 7
(2)JDK:1.8
图片来源于网络,如有侵权联系删除
(3)Python:2.7
(4)SSH:用于远程登录
2、安装步骤
(1)安装JDK
下载JDK 1.8安装包,使用以下命令进行安装:
sudo rpm -ivh jdk-8u241-linux-x64.rpm
安装完成后,设置环境变量:
sudo vi /etc/profile
在文件末尾添加以下内容:
export JAVA_HOME=/usr/java/jdk1.8.0_241 export PATH=$PATH:$JAVA_HOME/bin
保存并退出文件,使用以下命令使环境变量生效:
source /etc/profile
(2)安装Python
下载Python 2.7安装包,使用以下命令进行安装:
sudo yum install python2.7
(3)安装SSH
图片来源于网络,如有侵权联系删除
使用以下命令安装SSH:
sudo yum install openssh-server
启动SSH服务:
sudo systemctl start sshd
设置SSH服务开机自启:
sudo systemctl enable sshd
(4)安装Hadoop
下载Hadoop安装包,使用以下命令进行安装:
sudo tar -xzf hadoop-3.3.1.tar.gz -C /opt/
设置环境变量:
sudo vi /etc/profile
在文件末尾添加以下内容:
export HADOOP_HOME=/opt/hadoop-3.3.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出文件,使用以下命令使环境变量生效:
source /etc/profile
(5)配置Hadoop
进入Hadoop配置目录:
cd /opt/hadoop-3.3.1/etc/hadoop
修改配置文件:
图片来源于网络,如有侵权联系删除
vi core-site.xml
添加以下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
vi hdfs-site.xml
添加以下内容:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
vi mapred-site.xml
添加以下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
(6)格式化HDFS
在Hadoop配置目录下执行以下命令格式化HDFS:
hdfs namenode -format
(7)启动Hadoop服务
在Hadoop配置目录下执行以下命令启动HDFS和YARN服务:
sbin/start-dfs.sh sbin/start-yarn.sh
验证安装
在浏览器中输入以下地址,查看Hadoop Web界面:
http://localhost:50070
在浏览器中输入以下地址,查看YARN Web界面:
http://localhost:8088
本文详细介绍了Hadoop伪分布式集群的安装步骤,包括环境准备、安装JDK、Python、SSH和Hadoop,以及配置Hadoop和启动服务,通过本文的步骤,您可以成功搭建一个Hadoop伪分布式集群,为后续的数据处理打下基础。
标签: #hadoop安装与伪分布式集群搭建头哥
评论列表