黑狐家游戏

hadoop伪分布式搭建全过程,hadoop伪分布式环境搭建步骤

欧气 3 0

本文目录导读:

  1. 准备工作
  2. 下载与解压Hadoop
  3. 配置Hadoop
  4. 格式化HDFS
  5. 启动Hadoop服务
  6. 验证Hadoop伪分布式环境

《Hadoop伪分布式环境搭建全流程》

准备工作

1、系统环境准备

- 选择合适的操作系统,如Ubuntu,确保系统已经安装并且网络连接正常,更新系统软件包,在Ubuntu系统下可以使用命令sudo apt - get updatesudo apt - get upgrade来更新系统。

2、安装Java环境

hadoop伪分布式搭建全过程,hadoop伪分布式环境搭建步骤

图片来源于网络,如有侵权联系删除

- Hadoop运行依赖于Java环境,可以通过命令sudo apt - get install openjdk - 8 - jdk(以安装OpenJDK 8为例)安装Java,安装完成后,通过java - version命令验证Java是否安装成功。

下载与解压Hadoop

1、下载Hadoop

- 从Hadoop官方网站(https://hadoop.apache.org/releases.html)下载适合版本的Hadoop,例如选择Hadoop 3.x版本,可以使用wget命令进行下载,如wget https://downloads.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz

2、解压Hadoop

- 使用命令tar - zxvf hadoop - 3.3.0.tar.gz将下载的压缩包解压到指定目录,例如/usr/local目录下,解压后的目录可以重命名为hadoop方便管理,命令为mv hadoop - 3.3.0 hadoop

配置Hadoop

1、配置hadoop - env.sh

- 进入Hadoop的安装目录下的etc/hadoop文件夹,找到hadoop - env.sh文件,编辑该文件,设置Java环境变量,找到export JAVA_HOME =这一行,将其修改为系统中Java的安装路径,例如export JAVA_HOME =/usr/lib/jvm/java - 8 - openjdk - amd64

2、配置core - site.xml

- 在etc/hadoop文件夹中编辑core - site.xml文件,添加以下配置内容:

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

```

这里将Hadoop的默认文件系统设置为hdfs://localhost:9000

3、配置hdfs - site.xml

- 同样在etc/hadoop文件夹中编辑hdfs - site.xml文件,添加如下配置:

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>dfs.replication</name>

hadoop伪分布式搭建全过程,hadoop伪分布式环境搭建步骤

图片来源于网络,如有侵权联系删除

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/hadoop_data/namenode</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/hadoop_data/datanode</value>

</property>

</configuration>

```

其中dfs.replication设置为1表示数据副本数为1,因为是伪分布式环境,后面的dfs.namenode.name.dirdfs.datanode.data.dir分别设置了NameNode和DataNode的数据存储目录。

4、配置mapred - site.xml

- 从mapred - site.xml.template复制得到mapred - site.xml,然后编辑该文件,添加以下配置:

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

```

这里将MapReduce的框架名称设置为yarn

5、配置yarn - site.xml

- 编辑yarn - site.xml文件,添加如下配置:

hadoop伪分布式搭建全过程,hadoop伪分布式环境搭建步骤

图片来源于网络,如有侵权联系删除

```xml

<?xml version="1.0" encoding="UTF - 8"?>

<?xml - stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<property>

<name>yarn.nodemanager.aux - services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

```

其中yarn.resourcemanager.hostname设置为localhost表示资源管理器运行在本地。

格式化HDFS

1、执行格式化命令

- 在Hadoop安装目录下的sbin文件夹中,执行命令./hdfs namenode - format,这个命令会初始化Hadoop的文件系统,创建相关的目录结构,格式化操作只需要在首次搭建或者重新初始化文件系统时进行。

启动Hadoop服务

1、启动HDFS服务

- 在sbin文件夹中执行./start - dfs.sh命令来启动HDFS服务,启动后可以通过jps命令查看进程,应该能看到NameNodeDataNode进程。

2、启动YARN服务

- 执行./start - yarn.sh命令启动YARN服务,再次使用jps命令查看进程,此时应该能看到ResourceManagerNodeManager进程。

验证Hadoop伪分布式环境

1、访问Hadoop Web界面

- 可以通过浏览器访问http://localhost:9870(HDFS的Web界面)和http://localhost:8088(YARN的Web界面)来查看Hadoop集群的状态信息,在HDFS的Web界面中,可以查看文件系统的使用情况、文件列表等;在YARN的Web界面中,可以查看任务的运行状态、资源使用情况等。

2、运行示例程序

- 在Hadoop安装目录下的share/hadoop/mapreduce文件夹中有一些示例程序,例如hadoop - jar hadoop - mapreduce - examples - 3.3.0.jar pi 2 5,这个命令会运行一个计算圆周率的示例程序,通过MapReduce框架在伪分布式环境下计算圆周率的近似值。

通过以上步骤,就可以成功搭建Hadoop伪分布式环境,并且可以进行后续的大数据处理和分析相关的学习与实践。

标签: #hadoop #伪分布式 #搭建 #步骤

黑狐家游戏
  • 评论列表

留言评论