本文目录导读:
《Hadoop伪分布式安装实验总结》
实验目的
本次实验旨在通过在单节点上模拟分布式环境安装Hadoop,深入理解Hadoop的运行机制、架构以及各个组件之间的交互关系,为进一步学习大数据处理技术奠定基础。
实验环境
操作系统:Ubuntu 18.04
Hadoop版本:3.3.0
图片来源于网络,如有侵权联系删除
安装步骤
(一)安装Java环境
1、检查系统是否已安装Java
- 使用命令java -version
查看,如果未安装则进行安装。
2、安装OpenJDK
- 执行命令sudo apt - get update
更新软件包列表。
- 然后sudo apt - get install openjdk - 8 - jdk
安装OpenJDK 8。
- 安装完成后,再次使用java -version
确认安装成功。
(二)创建Hadoop用户并配置SSH免密登录
1、创建用户
- 使用命令sudo adduser hadoop
创建名为hadoop的用户。
- 为新用户设置密码等相关信息。
2、配置SSH免密登录
- 切换到hadoop用户su - hadoop
。
- 生成SSH密钥对,执行命令ssh - keygen - t rsa
,一路回车默认即可。
- 将公钥添加到授权文件中,执行cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
。
- 使用ssh localhost
测试免密登录是否成功。
(三)下载和安装Hadoop
1、下载Hadoop
- 在hadoop用户下,创建一个用于存放Hadoop安装文件的目录,如mkdir /home/hadoop/hadoop - install
。
- 进入该目录,使用wget
命令从官方网站下载Hadoop 3.3.0的压缩包,如wget https://dlcdn.apache.org/hadoop/common/hadoop - 3.3.0/hadoop - 3.3.0.tar.gz
。
2、解压安装
- 解压压缩包tar - zxvf hadoop - 3.3.0.tar.gz
。
- 将解压后的文件夹重命名为hadoop
,并移动到/home/hadoop/
目录下。
(四)配置Hadoop环境变量
1、编辑~/.bashrc
文件
- 使用命令vi ~/.bashrc
打开文件。
- 在文件末尾添加以下内容:
export HADOOP_HOME = /home/hadoop/hadoop
图片来源于网络,如有侵权联系删除
export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
2、使环境变量生效
- 执行命令source ~/.bashrc
。
(五)配置Hadoop核心文件
1、编辑core - site.xml
- 在$HADOOP_HOME/etc/hadoop
目录下找到core - site.xml
文件,使用vi
编辑器打开。
- 添加以下配置:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
2、编辑hdfs - site.xml
- 同样在该目录下找到hdfs - site.xml
文件并打开。
- 配置如下:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/hadoopdata/namenode</value>
</property>
图片来源于网络,如有侵权联系删除
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/hadoopdata/datanode</value>
</property>
</configuration>
```
- 创建上述配置中的数据存储目录mkdir - p /home/hadoop/hadoopdata/namenode
和mkdir - p /home/hadoop/hadoopdata/datanode
。
(六)格式化HDFS并启动Hadoop
1、格式化HDFS
- 执行命令hdfs namenode - format
。
2、启动Hadoop
- 启动HDFS,使用命令start - dfs.sh
。
- 启动YARN(如果需要运行MapReduce等任务),执行start - yarn.sh
。
实验过程中的问题及解决方法
(一)SSH免密登录失败
1、问题现象
- 在执行ssh localhost
时,仍然提示输入密码。
2、解决方法
- 检查authorized_keys
文件的权限,权限应该为600,使用命令chmod 600 ~/.ssh/authorized_keys
进行修改,然后再次测试免密登录。
(二)Hadoop启动失败
1、问题现象
- 在执行start - dfs.sh
或start - yarn.sh
时,出现各种错误提示,如端口被占用等。
2、解决方法
- 查看错误日志,在$HADOOP_HOME/logs
目录下,如果是端口被占用,使用netstat -tlnp
查看占用端口的进程,然后使用kill
命令杀死该进程,如果是配置文件错误,仔细检查配置文件中的语法和参数设置是否正确。
通过本次Hadoop伪分布式安装实验,我对Hadoop的安装和配置过程有了深入的了解,在安装过程中,每一个步骤都紧密相连,任何一个环节出现问题都可能导致整个安装失败,Java环境的正确安装是Hadoop运行的基础,SSH免密登录的成功配置对于后续Hadoop组件之间的通信至关重要,而Hadoop核心文件的正确配置则直接决定了Hadoop的运行模式和数据存储方式。
在解决实验过程中遇到的问题时,我学会了如何查看错误日志、分析问题的根源以及根据提示进行有效的解决,这不仅提高了我的问题解决能力,也让我对Hadoop的运行机制有了更深刻的认识,当Hadoop启动失败时,通过查看日志发现是端口被占用,这让我意识到在启动Hadoop之前需要确保系统环境的干净和资源的可用性。
通过成功安装和启动Hadoop,我也对Hadoop的架构有了更直观的感受,Hadoop的HDFS和YARN等组件在伪分布式环境下的运行方式,让我初步理解了它们在大数据处理中的角色和相互协作关系,这为我后续进一步学习Hadoop生态系统中的其他技术,如MapReduce编程、Hive数据仓库等奠定了坚实的基础。
本次实验是一次非常有意义的学习经历,让我在Hadoop的学习道路上迈出了重要的一步。
评论列表