本文目录导读:
Hadoop简介
Hadoop是一个开源的大数据处理框架,用于处理海量数据集,它主要由两个核心组件组成:HDFS(分布式文件系统)和MapReduce(分布式计算框架),Hadoop支持高吞吐量的数据访问,适用于大规模数据集的存储和处理。
图片来源于网络,如有侵权联系删除
Hadoop安装与伪分布式集群搭建步骤
1、环境准备
(1)操作系统:CentOS 7.x(推荐)
(2)Java环境:Hadoop依赖Java运行环境,版本为1.8或更高版本
(3)网络环境:确保各节点之间网络畅通
2、安装Java环境
(1)下载Java安装包:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
(2)解压安装包:tar -zxvf jdk-8u251-linux-x64.tar.gz
(3)配置环境变量:编辑~/.bash_profile文件,添加以下内容:
export JAVA_HOME=/usr/local/java/jdk1.8.0_251
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=$JAVA_HOME/lib:$CLASSPATH
(4)使环境变量生效:source ~/.bash_profile
(5)验证Java安装:java -version
3、安装Hadoop
(1)下载Hadoop安装包:https://www.apache.org/dyn/closer.cgi/hadoop/
(2)解压安装包:tar -zxvf hadoop-3.3.4.tar.gz
(3)配置Hadoop环境变量:编辑~/.bash_profile文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(4)使环境变量生效:source ~/.bash_profile
4、配置Hadoop
(1)修改hadoop配置文件:进入Hadoop配置目录,编辑以下文件:
图片来源于网络,如有侵权联系删除
- core-site.xml:配置HDFS的存储路径
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
- hdfs-site.xml:配置HDFS的副本数量
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- mapred-site.xml:配置MapReduce的运行模式
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- yarn-site.xml:配置YARN的运行模式
图片来源于网络,如有侵权联系删除
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
(2)创建Hadoop临时文件和日志文件目录:hadoop fs -mkdir -p /tmp/hadoop-yarn/staging
5、格式化HDFS文件系统
执行以下命令格式化HDFS文件系统:
hadoop namenode -format
6、启动Hadoop集群
(1)启动HDFS:start-dfs.sh
(2)启动YARN:start-yarn.sh
(3)查看Web界面:访问http://localhost:9870/(HDFS)和http://localhost:8088/(YARN)
7、验证Hadoop集群
(1)创建HDFS文件:hadoop fs -put /usr/local/hadoop/etc/hadoop/core-site.xml core-site.xml
(2)查看文件:hadoop fs -ls /core-site.xml
(3)执行MapReduce程序:hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /core-site.xml /wordcount-output
(4)查看结果:hadoop fs -cat /wordcount-output/part-r-00000
至此,Hadoop安装与伪分布式集群搭建完成,您可以开始使用Hadoop进行大数据处理了。
标签: #hadoop安装与伪分布式集群搭建
评论列表