大数据学习64-大数据集群的高可用HA

JAY.LIN 收录于未分类

2025-03-13 约 1969 字预计阅读 4 分钟

https://bing.ee123.net/img/rand?artid=146226543

大数据学习（64）- 大数据集群的高可用（HA）

&& &&

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。 💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

🍋一、大数据集群高可用实现方式

多节点冗余 ：
- NameNode/ResourceManager高可用 ：在Hadoop生态系统中，HDFS的NameNode和YARN的ResourceManager都采用了主备架构，通过设置两个节点，一个处于Active状态，另一个处于Standby状态，确保在主节点故障时能够迅速切换到备节点，继续提供服务。
- 数据节点冗余 ：在HDFS中，数据会被分割成多个块，并存储在不同的DataNode上，实现数据的冗余存储。即使某个DataNode出现故障，数据仍然可以从其他DataNode上恢复。
数据复制和冗余 ：
- 数据复制 ：大数据集群通常会在不同的节点上复制数据，以提高数据的可用性和容错性。例如，HDFS默认将数据块复制三份，存储在集群中的不同节点上。
- 元数据冗余 ：对于元数据，如HDFS的NameNode和YARN的ResourceManager中的信息，也会进行冗余存储，确保在主节点故障时，备节点能够迅速接管并恢复元数据。
负载均衡 ：
- 任务分发 ：大数据集群通常会使用负载均衡器来分发请求和任务，确保各个节点的负载均衡，防止单个节点被过度使用。
- 数据分发 ：在HDFS中，数据块的分布也是负载均衡的一部分，通过合理的数据块放置策略，确保各个DataNode的存储负载相对均衡。
容错性 ：
- 故障检测 ：集群应具备故障检测机制，能够及时发现并报告节点或组件的故障。
- 自动恢复 ：在检测到故障后，集群应具备自动恢复功能，能够自动重启故障节点或组件，或将其任务转移到其他节点上。
自动扩展 ：
- 动态扩展 ：集群应具备自动扩展功能，以便在需要时动态增加节点来应对工作负载的增加。
- 弹性伸缩 ：通过自动化的伸缩策略，集群可以根据实时的负载情况，动态增加或减少节点数量，以实现弹性的资源分配。
监控和管理 ：
- 监控工具 ：集群需要监控和管理工具，以便管理员能够实时监视系统的性能、健康状况和异常情况。
- 告警机制 ：当系统出现异常或潜在故障时，监控工具应及时发出告警，以便管理员能够迅速采取措施解决问题。

🍋二、HDFS的HA

核心组件与角色 ：

NameNode（NN） ：负责客户端请求的响应以及元数据的管理（如文件的创建、删除、重命名等）。
Secondary NameNode（SNN） ：在Hadoop 1.x版本中，起到冷备份的作用，当NameNode挂掉时需要手工启动。
JournalNode（JN） ：在Hadoop 2.x版本中引入，用于Active NN和Standby NN间的数据同步。
Zookeeper集群 ：用于选举Active NN和Standby NN。
ZKFC（ZooKeeper Failover Controller） ：监控NN的健康状态，并触发主备切换。

架构与机制 ：

双NameNode架构 ：设置两个NameNode，一个处于Active状态，另一个处于Standby状态。
元数据同步 ：Active NN将编辑日志（Editlog）写入共享存储（如JournalNode集群），Standby NN从共享存储中读取Editlog并应用，以保持与Active NN的元数据同步。
自动故障转移 ：当Active NN出现故障时，Zookeeper集群会选举出一个新的Active NN，ZKFC负责监控NN的状态并触发切换。

🍋三、YARN的HA

核心组件与角色 ：

ResourceManager（RM） ：负责接收客户端的任务请求，进行资源的分配与调度，启动和监控ApplicationMaster（AM）。
NodeManager（NM） ：管理容器（Container）的生命周期，与RM协同工作，完成任务的执行。
Zookeeper集群 ：用于选举Active RM和Standby RM。
ZKFC ：在YARN中，ZKFC是RM进程的一个线程，用于监控RM的健康状态并触发主备切换。

架构与机制 ：

双ResourceManager架构 ：设置两个RM，一个处于Active状态，另一个处于Standby状态。
作业信息同步 ：Active RM将作业信息存储在共享存储（如Zookeeper）中，Standby RM从共享存储中读取作业信息，以保持与Active RM的作业信息同步。
自动故障转移 ：当Active RM出现故障时，Zookeeper集群会选举出一个新的Active RM，ZKFC负责监控RM的状态并触发切换。备RM升主后，能够恢复故障发生时上层应用运行的状态。

在大数据环境中，高可用性是一个至关重要的设计目标。通过采用 主备切换、冗余存储、分布式部署、弹性伸缩和负载均衡等技术手段 ，可以确保大数据系统的各个关键部分都具备高可用性，从而在面对故障时能够持续、稳定地运行。

目录

大数据学习64-大数据集群的高可用HA

大数据学习（64）- 大数据集群的高可用（HA）

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。 💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

🍋一、大数据集群高可用实现方式

🍋二、HDFS的HA

🍋三、YARN的HA