1 Hadoop概述

1.1 Hadoop概念

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

1.2 Hadoop优势

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度
高容错性：能够自动将失败的任务重新分配。

1.3 Hadoop 组成

在Hadoop1.x 时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。

在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce 只负责运算。

Hadoop3.x在组成上没有变化。

1.3.1 HDFS架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。

1.3.2 YARN架构概述

Yet Another Resource Negotiator 简称YARN ，另一种资源协调者，是Hadoop 的资源管理器。

ResourceManager（RM）：整个集群资源（内存、CPU等）的老大
ApplicationMaster（AM）：单个任务运行的老大
NodeManager（NM）：单个节点服务器资源老大
Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

客户端可以有多个，集群上可以运行多个ApplicationMaster，每个NodeManager上可以有多个Container

1.3.3 MapReduce架构概述

MapReduce 将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据
Reduce阶段对Map结果进行汇总

1.3.4 HDFS、YARN、MapReduce三者关系

1.4 大数据技术生态体系

Sqoop：Sqoop 是一款开源的工具，主要用于在Hadoop、Hive 与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop 的HDFS 中，也可以将HDFS 的数据导进到关系型数据库中。
Flume：Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume 支持在日志系统中定制各类数据发送方，用于收集数据；
Kafka：Kafka 是一种高吞吐量的分布式发布订阅消息系统；
Spark：Spark 是当前最流行的开源大数据内存计算框架。可以基于Hadoop 上存储的大数据进行计算。
Flink：Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
Oozie：Oozie 是一个管理Hadoop 作业（job）的工作流程调度管理系统。
Hbase：HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
Hive：Hive 是基于Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL 查询功能，可以将SQL 语句转换为MapReduce 任务进行运行。其优点是学习成本低，可以通过类SQL 语句快速实现简单的MapReduce 统计，不必开发专门MapReduce 应用，十分适合数据仓库的统计分析。
ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

1.5 推荐系统框架图

2 Hadoop运行环境搭建

2.1 虚拟机环境准备

因为之前有三台虚拟机，这里就直接用了

ip	hostname
192.168.18.131	master
192.168.18.132	node1
192.168.18.133	node2

需要先搭建JAVA环境、配置静态IP，这里就不作展示

2.2 安装Hadoop

Hadoop下载地址https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

传输到虚拟机上，解压

tar -zxvf hadoop-3.1.3.tar.gz
mv hadoop-3.1.3 hadoop

将Hadoop添加到环境变量

sudo vim /etc/profile

# 添加如下内容到/etc/profile,安装路径记得改
export HADOOP_HOME=/opt/hadoop
export PATH=${HADOOP_HOME}/bin:$PATH
export PATH=${HADOOP_HOME}/sbin:$PATH

# 让修改后的文件生效
sudo source /etc/profile

测试是否安装成功

hadoop version

2.3 Hadoop目录结构

[adrainty@master hadoop]$ ll
总用量 176
drwxr-xr-x 2 adrainty adrainty    183 9月  11 2019 bin
drwxr-xr-x 3 adrainty adrainty     20 9月  11 2019 etc
drwxr-xr-x 2 adrainty adrainty    106 9月  11 2019 include
drwxr-xr-x 3 adrainty adrainty     20 9月  11 2019 lib
drwxr-xr-x 4 adrainty adrainty    288 9月  11 2019 libexec
-rw-rw-r-- 1 adrainty adrainty 147145 9月   4 2019 LICENSE.txt
-rw-rw-r-- 1 adrainty adrainty  21867 9月   4 2019 NOTICE.txt
-rw-rw-r-- 1 adrainty adrainty   1366 9月   4 2019 README.txt
drwxr-xr-x 3 adrainty adrainty   4096 9月  11 2019 sbin
drwxr-xr-x 4 adrainty adrainty     31 9月  11 2019 share

bin目录：存放对 Hadoop相关服务（ hdfs yarn mapred）进行操作的脚本
etc目录： Hadoop的配置文件目录，存放 Hadoop的配置文件
lib目录：存放 Hadoop的本地库（对数据进行压缩解压缩功能）
sbin目录：存放启动或停止 Hadoop相关服务的脚本
share目录：存放 Hadoop的依赖 jar包、文档、和官方案例

3 Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备 Hadoop集群的所有功能一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

3.1 本地运行模式

这里演示一下官方的WordCount案例（单词数统计）

新建一个wcinpuc文件夹

mkdir wcinput

文件下创建一个word.txt文件

cd wcinput
vim word.txt

# 添加如下内容
hadoop yarn
hadoop mapreduce
adrainty
adrainty

回到hadoop目录，执行如下命令

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput/ wcoutput

查看结果

cat wcoutput/part-r-00000

adrainty 2
hadoop 2
mapreduce 1
yarn 1

注意，执行命令的时候wcoutput，即输出目录不能存在，否则会抛如下异常
org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/opt/hadoop/wcoutput already exists

3.2 完全分布式运行模式

3.2.1 同步安装包

首先我们需要在node1和node2里面都安装hadoop，我们可以使用以下两个命令

scp可以实现服务器与服务器之间的数据拷贝。

scp -r /opt/hadoop adrainty@node1:/opt
scp -r /opt/hadoop adrainty@node2:/opt

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rm -rf wcinput/ wcoutput/
rsync -av /opt/hadoop adrainty@node1:/opt
rsync -av /opt/hadoop adrainty@node2:/opt

在node1和node2上执行

source /etc/profile

编写批量同步脚本

# !/bin/bash

# 1. 判断参数个数
if [ $# lt 1 ]
then
        echo Not Enough Arguement!
        exit;
fi

# 2. 遍历集群所有机器
for host in master node1 node2
do
        echo ==================== $host ====================
        # 3. 遍历所有目录，挨个发送
        for file in $@
        do
                # 4. 判断文件是否存在
                if [ -e $file ]
                then
                        # 5. 获取父目录
                        pdir=$(cd -P $(dirname $file); pwd)

                        # 6. 获取当前文件的名称
                        fname=$(basename $file)
                        ssh $host "mkdir -p $pdir"
                        rsync -av $pdir/$fname $host:$pdir
                else
                        echo $file does not exists!
                fi
        done
done

chmod +x xsync
sudo cp xsync /bin/

测试：

xsync /home/adrainty/bin

3.2.2 SSH无密登录配置

3.2.2.1 配置ssh

基本语法：

sh 另外一台主机的地址
sh node2

可以看到

Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'node1,192.168.18.132' (ECDSA) to the list of known hosts.
adrainty@node1's password: 
Last login: Fri Feb 24 05:15:01 2023
[adrainty@node2 ~]$

退出回本机

exit

如果每次都要输密码那很麻烦，如何设置免密登录呢

3.2.2.2 无密钥配置

生成公钥和私钥

ssh-keygen -t rsa

按三次回车生成如下文件

[adrainty@master .ssh]$ ll
总用量 12
-rw------- 1 adrainty adrainty 1679 2月  24 05:31 id_rsa
-rw-r--r-- 1 adrainty adrainty  397 2月  24 05:31 id_rsa.pub
-rw-r--r-- 1 adrainty adrainty  182 2月  24 05:30 known_hosts

将master公钥拷贝到node1和node2

ssh-copy-id master
ssh-copy-id node1
ssh-copy-id node2

在node1和node2也执行上面操作

3.2.2.3 文件功能解释

文件名	解释
known_hosts	记录ssh访问过计算机的公钥public key
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

3.2.3 集群配置

3.2.3.1 集群部署规划

NameNode和 SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和 NameNode、 SecondaryNameNode配置在同一台机器上。

-	master	node1	node2
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

3.2.3.2 配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

默认配置文件

要获取的默认文件	文件存放在Hadoop的jar包中的位置
core-default.xml	hadoop-common-3.1.3.jar/core-default.xml
hdfs-default.xml	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
yarn-default.xml	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
mapred-default.xml	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

自定义配置文件

core-site.xml、 hdfs-site.xml、yarn-site.xml、 mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

3.2.3.3 配置集群

配置core-site.xml

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>adrainty</value>
    </property>
</configuration>

配置hdfs-site.xml

<configuration>
    <!-- nn web端访问地址-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>master:9870</value>
    </property>
        <!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node2:9868</value>
    </property>
</configuration>

配置yarn-site.xml

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node1</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

配置mapred-site.xml

<configuration>
    <!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

同步脚本：

xsync /opt/hadoop/etc/hadoop

3.2.4 群起集群

3.2.4.1 配置workers

vim etc/hadoop

# 添加如下内容
master
node1
node2

注意，该文件不要有空格，空行

分发文件

xsync workers

3.2.4.2 启动集群

如果集群是第一次启动，需要在master节点格式化NameNode

hdfs namenode -format

注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。

格式化后，生成如下文件

[adrainty@master hadoop]$ cat /data/hadoop/data/dfs/name/current/VERSION
#Sat Feb 25 00:58:37 CST 2023
namespaceID=674269706
clusterID=CID-5c5d4273-b323-4d66-a8db-c80220438724
cTime=1677257917983
storageType=NAME_NODE
blockpoolID=BP-1336449835-192.168.18.131-1677257917982
layoutVersion=-64

启动集群：

sbin/start-dfs.sh

遇到坑如下：
master: ERROR: JAVA_HOME is not set and could not be found.
在hadoop-env.sh中配置JAVA_HOME
启动了但是jps没有进程
查看log发现Hadoop Invalid Java version 11.0.16.1
修改JAVA版本为Java8

Yarn提供资源调度的页面，打开http://192.168.18.132:8088访问

HDFS提供的NameNode页面，打开http://192.168.18.131:9870访问

3.2.4.3 测试集群

上传文件到集群

hadoop fs -mkdir /wcinput
hadoop fs -put wcinput/word.txt /wcinput

上传文件后文件实际存放在datenode里面

[adrainty@node1 subdir0]$ cat blk_1073741825
666
[adrainty@node1 subdir0]$ pwd
/data/hadoop/data/dfs/data/current/BP-1336449835-192.168.18.131-1677257917982/current/finalized/subdir0/subdir0

执行wordcount程序

[adrainty@node1 hadoop]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput

注意，在集群模式下，该路径应该为上面的集群路径，而非机器本身的路径

3.2.5 配置历史服务器

在上面HDFS页面中，我们点击History进去，结果无响应，这是因为没有配置历史服务器所导致的

为了查看程序的历史运行情况，需要配置一下历史服务器

配置mapred-site.xml

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>

这里如果之前启动过yarn，需要先关闭，再启动

./sbin/stop-yarn.sh
./sbin/start-yarn.sh

然后在master启动历史服务器

mapred --daemon start historyserver

执行测试案例后，http://master:19888/jobhistory查看历史

3.2.6 配置日志的聚集

在上一步，我们想查看程序运行的日志的时候，会提示

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

配置yarn-site.xml

 <!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://master:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

分发配置后重启yarn和historyserver

mapred --daemon stop historyserver
./sbin/stop-yarn.sh
./sbin/start-yarn.sh
mapred --daemon start historyserver

3.2.7 常用命令

整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

启动/停止YARN

yarn --daemon start/stop  resourcemanager/nodemanager

Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh master "/opt/hadoop/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh node1 "/opt/hadoop/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh master "/opt/hadoop/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh master "/opt/hadoop/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh node1 "/opt/hadoop/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh master "/opt/hadoop/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

3.2.8 常用端口

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

如果觉得文章对你有用，请随意赞赏

Hadoop - 入门

https://www.adrainty.online/archives/1718109335463

作者

AdRainty

发布于

2024-06-11

更新于