高可用集群
集群类型
-LB:Load Balance 负载均衡
LVS/HAProxy/nginx(http/upstream, stream/upstream)
-HA:High Availability 高可用集群
数据库、Zookeeper、Redis
SPoF: Single Point of Failure,解决单点故障
-HPC:High Performance Computing 高性能集群
系统可用性
SLA:Service-Level Agreement
A = MTBF / (MTBF+MTTR)
95%=(602430)*(1-0.9995)
指标 :99.9%, …, 99.999%,99.9999%
系统故障
硬件故障:设计缺陷、wear out(损耗)、自然灾害……
软件故障:设计缺陷 bug
实现高可用
提升系统高用性的解决方案:降低MTTR- Mean Time To Repair(平均故障时间)
解决方案:建立冗余机制
- active/passive 主/备
- active/active 双主
- active –> HEARTBEAT –> passive
- active <–> HEARTBEAT <–> active
高可用相关技术
HA service:
资源:组成一个高可用服务的“组件”,比如:vip,service process,shared storage
(1) passive node的数量
(2) 资源切换
shared storage:
- NAS(Network Attached Storage):网络附加存储,基于网络的共享文件系统。
- SAN(Storage Area Network):存储区域网络,基于网络的块级别的共享
Network partition 网络分区
quorum 法定人数
with quorum: > total/2
without quorum: <= total/2
隔离设备 fence
node:STONITH = Shooting The Other Node In The Head(强制下线/断电)
参考资料:
https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/7/html/high_availability_add-on_reference/s1-unfence-haar
双节点集群(TWO nodes Cluster)
辅助设备:ping node, quorum disk(仲裁设备)
- Failover:故障切换,即某资源的主节点故障时,将资源转移至其它节点的操作
- Failback:故障移回,即某资源的主节点故障后重新修改上线后,将之前已转移至其它节点的资源重新切回的过程
HA Cluster实现方案:
AIS:Applicaiton Interface Specification 应用程序接口规范
- RHCS:Red Hat Cluster Suite红帽集群套件
参考资料:https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/5/html/cluster_suite_overview/ch.gfscs.cluster-overview-cso
- heartbeat:基于心跳监测实现服务高可用
- pacemaker+corosync:资源管理与故障转移
vrrp:Virtual Router Redundancy Protocol
虚拟路由冗余协议,解决静态网关单点风险
-软件层—keepalived
-物理层—路由器、三层交换机
本文链接:https://www.yunweipai.com/35350.html
网友评论comments