本文目录导读:
图片来源于网络,如有侵权联系删除
随着大数据时代的到来,Hadoop作为一款分布式存储和计算框架,已经成为了业界的主流技术,而伪分布式集群作为Hadoop入门和实践的首选环境,其安装过程对于初学者来说可能存在一定的难度,本文将详细讲解Hadoop伪分布式集群的安装步骤,并附上实战操作,帮助读者快速上手。
准备工作
1、硬件环境
- 服务器或虚拟机:至少1台,配置如下:
- CPU:2核
- 内存:4GB
- 硬盘:100GB
- 操作系统:Linux(推荐CentOS 7)
2、软件环境
- JDK:1.8及以上版本
- Hadoop:3.2.1版本
安装步骤
1、安装JDK
(1)下载JDK:前往Oracle官网下载JDK 1.8及以上版本,选择Linux x64的tar.gz格式。
(2)上传JDK:使用SCP命令将下载好的JDK包上传到服务器。
图片来源于网络,如有侵权联系删除
(3)解压JDK:在根目录下创建一个名为“java”的文件夹,进入该文件夹,执行以下命令解压JDK:
tar -zxvf jdk-8u261-linux-x64.tar.gz
(4)设置环境变量:编辑“~/.bashrc”文件,添加以下内容:
export JAVA_HOME=/root/java/jdk1.8.0_261 export PATH=$PATH:$JAVA_HOME/bin
然后执行以下命令使环境变量生效:
source ~/.bashrc
2、安装Hadoop
(1)下载Hadoop:前往Apache Hadoop官网下载Hadoop 3.2.1版本,选择Linux x86的tar.gz格式。
(2)上传Hadoop:使用SCP命令将下载好的Hadoop包上传到服务器。
(3)解压Hadoop:在根目录下创建一个名为“hadoop”的文件夹,进入该文件夹,执行以下命令解压Hadoop:
tar -zxvf hadoop-3.2.1.tar.gz
3、配置Hadoop
(1)修改配置文件:进入Hadoop解压后的根目录,编辑以下配置文件:
- “hadoop-env.sh”:设置JDK路径
export JAVA_HOME=/root/java/jdk1.8.0_261
- “core-site.xml”:设置Hadoop运行时的基本参数
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop/tmp</value> </property> </configuration>
- “hdfs-site.xml”:设置HDFS存储参数
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/root/hadoop/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/root/hadoop/hdfs/data</value> </property> </configuration>
- “mapred-site.xml”:设置MapReduce计算参数
图片来源于网络,如有侵权联系删除
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- “yarn-site.xml”:设置YARN资源管理参数
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
(2)创建HDFS目录:在Hadoop解压后的根目录下执行以下命令,创建HDFS目录:
hadoop fs -mkdir -p /tmp hadoop fs -mkdir -p /user hadoop fs -mkdir -p /user/hadoop hadoop fs -chmod -R 777 /tmp hadoop fs -chmod -R 777 /user hadoop fs -chmod -R 777 /user/hadoop
4、格式化HDFS
在Hadoop解压后的根目录下执行以下命令,格式化HDFS:
hadoop namenode -format
5、启动Hadoop集群
(1)启动HDFS:在Hadoop解压后的根目录下执行以下命令,启动HDFS:
sbin/start-dfs.sh
可以在浏览器中访问http://localhost:50070查看HDFS的Web界面。
(2)启动YARN:在Hadoop解压后的根目录下执行以下命令,启动YARN:
sbin/start-yarn.sh
可以在浏览器中访问http://localhost:8088查看YARN的Web界面。
通过以上步骤,我们已经成功搭建了一个Hadoop伪分布式集群,我们可以利用这个集群进行大数据处理和实践,在实际应用中,我们还可以根据需求对集群进行扩展和优化,希望本文能对您有所帮助。
评论列表