本文目录导读:
《Hadoop安装与伪分布式集群搭建全攻略》
环境准备
1、操作系统
- 建议使用Linux系统,这里以CentOS 7为例,确保系统已经安装并且网络连接正常。
2、软件依赖安装
- 安装Java环境,Hadoop运行需要Java支持,通过命令yum install java -y
安装OpenJDK,也可以从Oracle官网下载JDK并进行安装配置。
- 安装SSH,Hadoop在启动和运行过程中,各个节点之间需要通过SSH进行通信,通过命令yum install openssh - server openssh - clients -y
安装SSH服务,然后使用ssh - keygen -t rsa
命令生成密钥对,再通过ssh - copy - id localhost
将公钥复制到本地,实现无密码登录。
Hadoop安装
1、下载Hadoop
- 从Hadoop官方网站(https://hadoop.apache.org/releases.html)下载合适版本的Hadoop,这里以Hadoop 3.3.0为例,使用命令wget https://dlcdn.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz
将其下载到本地。
2、解压Hadoop
- 使用命令tar -zxvf hadoop - 3.3.0.tar.gz
将下载的压缩包解压到指定目录,例如/usr/local
,可以使用命令mv hadoop - 3.3.0 /usr/local/hadoop
将解压后的文件夹重命名为hadoop。
3、配置Hadoop环境变量
- 编辑/etc/profile
文件,添加以下内容:
```
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
- 执行source /etc/profile
使环境变量生效。
伪分布式集群搭建
1、配置核心文件(core - site.xml)
- 在$HADOOP_HOME/etc/hadoop
目录下,编辑core - site.xml
文件,添加以下配置:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>
</configuration>
```
- 这里fs.defaultFS
指定了Hadoop的默认文件系统为HDFS,并且设置了NameNode运行在本地的9000端口;hadoop.tmp.dir
指定了Hadoop临时文件的存储目录。
2、配置HDFS文件(hdfs - site.xml)
- 编辑hdfs - site.xml
文件,配置如下:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/hdfs/data</value>
</property>
</configuration>
```
- 由于是伪分布式模式,dfs.replication
设置为1,表示数据块的副本数为1。dfs.namenode.name.dir
和dfs.datanode.data.dir
分别指定了NameNode和DataNode的数据存储目录。
3、配置MapReduce文件(mapred - site.xml)
- 从mapred - site.xml.template
复制一份得到mapred - site.xml
,编辑它并添加以下内容:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- 这里将MapReduce的运行框架指定为YARN。
4、配置YARN文件(yarn - site.xml)
- 编辑yarn - site.xml
文件,配置如下:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux - services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
```
yarn.nodemanager.aux - services
指定了YARN的辅助服务为mapreduce_shuffle
,yarn.resourcemanager.hostname
设置了资源管理器运行在本地主机。
启动Hadoop
1、格式化NameNode
- 在第一次启动Hadoop之前,需要格式化NameNode,在终端中执行hdfs namenode - format
命令,这个命令会初始化HDFS的文件系统元数据,创建相关的目录结构等。
2、启动Hadoop服务
- 执行start - all.sh
命令来启动Hadoop的所有服务,包括NameNode、DataNode、ResourceManager和NodeManager等,可以通过jps
命令查看启动的进程,应该能看到NameNode
、DataNode
、ResourceManager
和NodeManager
等进程。
验证Hadoop安装与集群
1、HDFS验证
- 通过浏览器访问http://localhost:9870
(Hadoop 3.0及以上版本,旧版本可能是http://localhost:50070
),可以查看HDFS的管理界面,包括文件系统的状态、块信息等。
2、YARN验证
- 访问http://localhost:8088
可以查看YARN的管理界面,这里可以看到任务的运行状态、资源分配情况等,可以提交一个简单的MapReduce示例任务来验证YARN是否正常工作。
通过以上步骤,就可以完成Hadoop的安装与伪分布式集群搭建,并对其进行初步的验证,在实际使用过程中,还可以根据需求进一步优化配置,如调整内存分配、增加数据存储容量等。
评论列表