黑狐家游戏

hadoop伪分布式安装详细步骤,Hadoop伪分布式集群搭建详细教程,从环境准备到集群启动

欧气 0 0

本文目录导读:

  1. 环境准备
  2. 软件安装
  3. 配置文件修改
  4. 集群启动

随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,被广泛应用于各行各业,而搭建Hadoop伪分布式集群是学习Hadoop的第一步,本文将详细讲解Hadoop伪分布式集群的搭建过程,包括环境准备、软件安装、配置文件修改、集群启动等步骤。

环境准备

1、操作系统:建议使用Linux系统,如CentOS 7.0。

2、硬件环境:建议配置如下:

- CPU:Intel Core i5或更高

hadoop伪分布式安装详细步骤,Hadoop伪分布式集群搭建详细教程,从环境准备到集群启动

图片来源于网络,如有侵权联系删除

- 内存:8GB或更高

- 硬盘:至少500GB

3、软件环境:

- JDK:1.8及以上版本

- SSH:用于集群节点间免密登录

- Git:用于下载Hadoop源码

软件安装

1、安装JDK

下载JDK安装包,解压到指定目录,并设置环境变量。

   # 解压JDK安装包
   tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/local
   # 设置环境变量
   vi /etc/profile

在文件末尾添加以下内容:

   export JAVA_HOME=/usr/local/jdk1.8.0_171
   export PATH=$PATH:$JAVA_HOME/bin

保存文件并退出,然后执行以下命令使环境变量生效:

   source /etc/profile

2、安装SSH

使用系统自带的包管理工具安装SSH服务。

hadoop伪分布式安装详细步骤,Hadoop伪分布式集群搭建详细教程,从环境准备到集群启动

图片来源于网络,如有侵权联系删除

   yum install openssh-server

3、安装Git

使用系统自带的包管理工具安装Git。

   yum install git

4、下载Hadoop源码

使用Git下载Hadoop源码。

   git clone https://github.com/apache/hadoop.git
   cd hadoop

配置文件修改

1、修改hadoop-env.sh

   vi hadoop-env.sh

在文件中设置JDK路径:

   export JAVA_HOME=/usr/local/jdk1.8.0_171

2、修改core-site.xml

   vi core-site.xml

添加以下内容:

   <configuration>
       <property>
           <name>fs.defaultFS</name>
           <value>hdfs://localhost:9000</value>
       </property>
       <property>
           <name>hadoop.tmp.dir</name>
           <value>/usr/local/hadoop-3.3.1/tmp</value>
       </property>
   </configuration>

3、修改hdfs-site.xml

   vi hdfs-site.xml

添加以下内容:

   <configuration>
       <property>
           <name>dfs.replication</name>
           <value>1</value>
       </property>
       <property>
           <name>dfs.namenode.name.dir</name>
           <value>/usr/local/hadoop-3.3.1/hdfs/namenode</value>
       </property>
       <property>
           <name>dfs.datanode.data.dir</name>
           <value>/usr/local/hadoop-3.3.1/hdfs/datanode</value>
       </property>
   </configuration>

4、修改mapred-site.xml

   vi mapred-site.xml

添加以下内容:

hadoop伪分布式安装详细步骤,Hadoop伪分布式集群搭建详细教程,从环境准备到集群启动

图片来源于网络,如有侵权联系删除

   <configuration>
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
   </configuration>

5、修改yarn-site.xml

   vi yarn-site.xml

添加以下内容:

   <configuration>
       <property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
       </property>
       <property>
           <name>yarn.resourcemanager.hosts</name>
           <value>localhost</value>
       </property>
   </configuration>

集群启动

1、格式化NameNode

   bin/hdfs namenode -format

2、启动HDFS

   sbin/start-dfs.sh

3、启动YARN

   sbin/start-yarn.sh

4、验证集群启动

打开浏览器,访问以下地址:

   http://localhost:50070

可看到HDFS Web UI界面。

至此,Hadoop伪分布式集群搭建完成,您可以使用Hadoop提供的各种工具和命令进行大数据处理实践。

标签: #配置开发环境 - hadoop安装与伪分布式集群搭建情况

黑狐家游戏
  • 评论列表

留言评论