集群容灾解决方案之Rose HA

Rose是美国ROSE Datasystem公司研发的高可用性系列软件,Rose HA也称为基于共享存储的双机高可用解决方案。

Rose HA高可用性系统解决方案以低成本且简便的方式,实现了两个节点的Cluster环境.客户只需要在原有的单机系统上增加一台服务器、一个共享存储设备,通过Rose基于共享存储的高可用解决方案即可实现关键业务的7X24小时连续运行,对于需要更有效应用现有服务器资源的用户而言,是最为适用的解决方案。

一、Rose HA的工作原理:
RoseHA双机系统的两台服务器(主机)都与磁盘阵列(共享存储)系统直接连接,用户的操作系统、应用软件和RoseHA高可用软件分别安装在两台主机上,数据库等共享数据存放在存储系统上,两台主机之间通过私用心跳网络连接。配置好的系统主机开始工作后,RoseHA软件开始监控系统,通过私用网络传递的心跳信息,每台主机上的RoseHA软件都可监控另一台主机的状态。当工作主机发生故障时,心跳信息就会产生变化,这种变化可以通过私用网络被RoseHA软件捕捉。当捕捉到这种变化后RoseHA就会控制系统进行主机切换,即备份机启动和工作主机一样的应用程序接管工作主机的工作(包括提供TCP/IP网络服务、存储系统的存取等服务)并进行报警,提示管理人员对故障主机进行维修。当维修完毕后,可以根据RoseHA的设定自动或手动再切换回来,也可以不切换,此时维修好的主机就作为备份机,双机系统继续工作。

RoseHA实现容错功能的关键在于,对客户端来说主机是透明的,当系统发生错误而进行切换时,即主机的切换在客户端看来没有变化,所有基于主机的应用都仍然正常运行。RoseHA采用了虚拟IP地址映射技术来实现此功能。客户端通过虚拟地址和工作主机通讯,无论系统是否发生切换,虚拟地址始终指向工作主机。在进行网络服务时,RoseHA提供一个逻辑的虚拟地址,任何一个客户端需要请求服务时只需要使用这个虚拟地址。正常运行时,虚拟地址及网络服务由主服务器提供。当主服务器出现故障时,RoseHA会将虚拟地址转移到另外一台服务器的网卡上,继续提供网络服务。切换完成后,在客户端看来系统并没有出现故障,网络服务仍然可以使用。除IP地址外,HA还可以提供虚拟的计算机别名供客户端访问。对于数据库服务,当有主服务器出现故障时,另外一台服务器就会自动接管,同时启动数据库和应用程序,使用户数据库可以正常操作。

二、RoseHA主要功能特点:
1. 友好的界面
RoseHA 提供了友好直观的图形安装界面和监控管理界面。通过直观而又方便的Java Applet管理界面,用户可以交互式地对集群系统进行配置、监控和管理,并可以利用Applet的网络特性,通过网络对系统进行远程管理,实时地显示出主机系统及服务的状态。

2. 灵活的Active-Active模式和Active-Standby模式
RoseHA支持Active-Active模式和Active-Standby模式。用户可指定每台服务器的作用(active or standby),指定要监控的服务和硬件部分,定义指定的服务发生故障后要采取的进一步行动(如是否重新启动该服务、允许的最大启动时间等)。

3. 支持多条心跳路径
可以将网线和RS-232串口线作为RoseHA软件的心跳路径。配置多条心跳路径可以避免系统的单点故障。

4. 支持虚拟MAC地址
在网络环境中,每个IP与唯一的MAC绑定在一起。而传统的集群结构下,将致使集群的活动IP在不同时刻绑定不同的MAC地址,导致跨网段通信出现问题。为了使集群软件更好的支持这种网络安全级别较高的网络环境,RoseHA提供了支持虚拟MAC地址的功能,使集群环境IP地址实现与唯一MAC地址绑定。

5. 自动切换
当系统出现故障时(如:系统宕机、HA进程/应用进程被杀掉、RS-232、SCSI、光纤、网络线缆断开),RoseHA 将确定故障原因,并采取相应对策,并将这些应用切换到备份服务器上。而故障服务器中未受影响的应用不会被切换,即不会受任何影响。不需要系统管理员干预。

6. 自动检测
在集群系统的每一台服务器内,RoseHA具有两个核心进程,它们互相监控,如果其中一个进程失败,另一个进程会立即进行恢复,避免了RoseHA自身服务的单点故障。

7. 服务器可靠性
在主服务器出现故障(如掉电或宕机)时,另外一台服务器接管故障服务器上运行的所有的关键性应用。

8. 网络可靠性
如果服务器的网络部分发生故障,会导致客户不能连接和访问到服务器,这同样是致命的故障。如果该服务器配备了冗余的网络接口,RoseHA会使用它来恢复网络连接。在没有配备冗余的网络接口,或者所有的网络接口均出现故障时,HA会将该应用切换到另外一台服务器上。切换完成后,客户在短暂的切换过程后能够继续访问所需的服务。

9. 存储可靠性
需要将应用的全部数据存储在两台服务器都能访问到的共享磁盘中。建议使用磁盘阵列来存储数据,这样可以避免单点故障,而且便于对系统的容量进行扩充。对由Volume Manager软件管理的磁盘阵列,RoseHA提供了相应的处理程序,以保证磁盘阵列及数据的可靠性。

10. 应用可靠性
在高可用性系统中可以运行多个应用。每一个应用是作为一个服务而存在的。在服务器中,当某个服务失败而其它服务正常运行时,RoseHA将处理这个失败的服务。在将这个服务切换到另一台服务器上时,该服务器上运行的服务也不会受到影响。对于与网络不相关的纯数据应用,只需要切换数据存储和数据处理软件。而对于与网络相关的客户机/服务器应用,除了要切换数据存储和数据处理软件外,还需要切换相关的虚拟IP。如果希望两个服务独立地进行切换,则此两个虚拟IP地址不能相同。如果使用了相同的IP地址,在发生切换时,RoseHA会将所有使用该IP的服务都切换到另外一台服务器上去。

11. 丰富的附加功能
提供不同的针对特定应用的Agent程序,使服务监控更切实际,更加有效;提供用于开发Agent程序的应用程序界面(API),使用者可针对特定的服务编写Agent程序,执行与特定服务相关的状态诊断及错误恢复工作。

三、Rose HA所支持的软件规格:

分类 具体列表
操作系统 Windows Windows NT4.0 Server Sp6a
Windows Server 2000 各发行版本
Windows Server 2003 各发行版本
Windows Server 2008 各发行版本
Linux RedHat Enterprise Linux 2.1/3/4/5/6
SUSE Linux Enterprise Server 8/9/10/11
Asianux 1/2/3
Red Flag Linux 4.0/5.0
SCO SCO OpenServer 5.0.x/UnixWare 7.x.x
Solaris Sun Sparc Solaris 2.5.1/2.6/7/8/9/10
Sun x86 Solaris 10
支持的应用 数据库:Oracle、MSSQL、Sybase、DB2、Mysql、Informix等
邮件服务器:Exchange、Sendmail、Postfix、Domino等
Web服务器:IIS、Tomcat、Apache等
文件服务器:Samba、FTP、NFS等
中间件应用:WebLogic、WebSphere等
用户自定义应用:提供二次开发API接口
存储支持 SCSI/IPSAN/FCSAN/SAS等

转载请注明:运维派 » 集群容灾解决方案之Rose HA

0
3.4k
0