黑狐家游戏

搭建hadoop伪分布式环境步骤,Hadoop伪分布式集群搭建与配置开发环境实战指南

欧气 0 0

本文目录导读:

  1. 搭建Hadoop伪分布式集群的准备工作
  2. Hadoop伪分布式集群搭建步骤
  3. 验证Hadoop集群是否启动成功

随着大数据时代的到来,Hadoop作为一款开源的大数据处理框架,在国内外得到了广泛的应用,为了更好地学习Hadoop,搭建一个伪分布式集群是必不可少的,本文将详细介绍Hadoop伪分布式集群的搭建过程,帮助读者快速掌握Hadoop的开发环境配置。

搭建hadoop伪分布式环境步骤,Hadoop伪分布式集群搭建与配置开发环境实战指南

图片来源于网络,如有侵权联系删除

搭建Hadoop伪分布式集群的准备工作

1、系统环境

操作系统:Linux(推荐CentOS 7)

Hadoop版本:Hadoop 3.2.1

Java版本:Java 8

2、网络环境

确保三台虚拟机之间能够正常通信,且IP地址在同一网段。

Hadoop伪分布式集群搭建步骤

1、下载Hadoop源码

从Apache Hadoop官网(https://hadoop.apache.org/releases.html)下载Hadoop 3.2.1版本的源码包。

2、解压Hadoop源码包

将下载的Hadoop源码包解压到指定的目录,/usr/local/hadoop

3、配置环境变量

在Linux系统中,编辑bashrc文件,添加Hadoop的环境变量:

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使用source命令使配置生效:

source ~/.bashrc

4、配置Hadoop

搭建hadoop伪分布式环境步骤,Hadoop伪分布式集群搭建与配置开发环境实战指南

图片来源于网络,如有侵权联系删除

(1)编辑hadoop-env.sh文件

在Hadoop根目录下的etc/hadoop目录中,编辑hadoop-env.sh文件,设置Java环境:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.242.x86_64

(2)编辑core-site.xml文件

在Hadoop根目录下的etc/hadoop目录中,编辑core-site.xml文件,配置Hadoop的存储路径:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

(3)编辑hdfs-site.xml文件

在Hadoop根目录下的etc/hadoop目录中,编辑hdfs-site.xml文件,配置HDFS的副本数量和存储路径:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/hdfs/datanode</value>
    </property>
</configuration>

(4)编辑mapred-site.xml文件

在Hadoop根目录下的etc/hadoop目录中,编辑mapred-site.xml文件,配置MapReduce运行模式:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

(5)编辑yarn-site.xml文件

在Hadoop根目录下的etc/hadoop目录中,编辑yarn-site.xml文件,配置YARN的集群模式:

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
</configuration>

5、格式化NameNode

在Hadoop根目录下,执行以下命令格式化NameNode:

hdfs namenode -format

6、启动Hadoop集群

(1)启动HDFS

搭建hadoop伪分布式环境步骤,Hadoop伪分布式集群搭建与配置开发环境实战指南

图片来源于网络,如有侵权联系删除

start-dfs.sh

(2)启动YARN

start-yarn.sh

(3)启动HistoryServer

mr-jobhistory-daemon.sh start historyserver

验证Hadoop集群是否启动成功

1、访问HDFS Web界面

在浏览器中输入http://localhost:50070,查看HDFS Web界面,确认HDFS是否启动成功。

2、访问YARN Web界面

在浏览器中输入http://localhost:8088,查看YARN Web界面,确认YARN是否启动成功。

3、执行Hadoop示例程序

在Hadoop根目录下的share/hadoop/mapreduce目录中,找到hadoop-examples.jar文件,执行以下命令:

hadoop jar hadoop-examples.jar wordcount /input/wordcount.txt /output/wordcount

在Hadoop根目录下的etc/hadoop目录中,找到wordcount.txt文件,内容如下:

Hello Hadoop
Hello World
Hadoop is great

执行上述命令后,Hadoop会处理wordcount.txt文件,并将结果输出到/output/wordcount目录。

通过以上步骤,我们已经成功搭建了一个Hadoop伪分布式集群,并配置了开发环境,可以在这个环境中学习Hadoop的各种应用场景,如HDFS、MapReduce、YARN等,希望本文能对您有所帮助。

标签: #配置开发环境 - hadoop安装与伪分布式集群搭建研究

黑狐家游戏
  • 评论列表

留言评论