转载

ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover

我们有几个项目使用了Windows Server 2008+ROSE HA+Oracle的组合方案,但是最近遇到了一个不大不小的麻烦。
甲方在进行故障测试时,断掉了一个网络交换机的电源(共有两个网络交换机,对应两个冗余的业务网络),Oracle服务竟然停止了,导致所有的客户端数据库连接中断。
首先,这个测试结果甲方是无法接受的;
其次,这个结果也出乎我们的意料,在另外一个交换机正常工作的情况下,ROSE HA停止了Oracle服务。

那么,如何给甲方一个交代呢?在和ROSE售后经过多次沟通后,配置IP资源的LocalFailover似乎是个不错的选择。

一、ROSE HA是什么

ROSE HA是美国ROSE Datasystem 公司出品的新一代高可用性软件,它可以将UNIX服务器和Windows 服务器组成集群系统,并对服务器进行监控、故障检测、故障恢复,保护运行服务器中的关键性数据服务和网络服务。对于在客户机/服务器环境中的网络及数据库中集成的高可用需求,ROSE HA提供了非常灵活而且适用的解决方案。

二、IP资源(IP Resource)

ROSE HA包括卷资源、IP资源、应用程序等多种资源,其中IP资源(IP Resource)由IP地址和IP地址依赖的网卡组成。网卡组作为创建IP资源的载体需要首先创建。
IP资源分为心跳IP和虚拟IP两类。心跳IP作为集群服务传递信息的桥梁,虚拟IP作为客户端访问应用程序的入口地址。

管理员可以根据具体需求,灵活创建网卡组。创建网卡组时,需要注意以下几个方面:
1.网卡组中的网卡上的IP可以在不同的网段,即组成网卡组的网卡可以自由组合;
2.集群节点心跳IP的简历需要同一个IP段的IP地址;
3.在网卡组中的主机允许选择超过一片的网卡,以配合做IP资源的LocalFailover(多片网卡需要用户指定一个优先顺序);
4.基于网卡组的IP资源的替换IP功能会作用于该资源,不单独提供或者智能的替换某些主机的网卡上的IP地址。

三、如何设置IP资源的LocalFailover

假如我们现在有两台服务器,每台服务器上有两片网卡:
服务器名称 IP1 IP2
SUPPORT-58-114 192.168.58.114 192.168.10.114
SUPPORT-58-113
192.168.58.113
192.168.10.113
其中,对应的虚拟IP分别为192.168.58.115和192.168.10.115。
接下来,我们来配置IP资源的LocalFailover。

1.将资源带出

首先,我们修改IP资源的配置前,需要将资源带出。ROSE HA会自动把所有的服务停止,所有的资源都处于离线状态。
通过右键菜单“带出”即可。

2.配置网卡组

选中网卡组1,右键“属性”,将10网段的网卡信息添加到网卡列表中,注意优先级顺序(58在前,10在后);
选中网卡组2,右键“属性”,将58网段的网卡信息添加到网卡列表中,注意优先级顺序(10在前,58在后)
ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover
ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover
ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover


3.网卡组配置完成

ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover


4.配置IP资源

选中IP资源1,勾选“自动回切IP”,注意,不要勾选“替换IP”;
选中IP资源2,勾选“自动回切IP”,注意,不要勾选“替换IP
ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover
ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover
ROSE HA,想说爱你不容易——为ROSE HA配置IP资源的LocalFailover


5.将资源带入

最后,我们修改IP资源的配置后,需要将资源带入。ROSE HA会自动将所有的资源带入在线状态,并启动相关服务。
通过右键菜单“带入”即可。


四、看似完美的LocalFailover

这样,我们就完成了为ROSE HA配置IP资源的LocalFailover。
现在我们考虑以下场景,ROSE HA状态正常,服务器SUPPORT-58-114为当前活动主机,
当对应IP为192.168.58.114的网卡1(命名为HOEGH-1)故障时,ROSE HA会完成LocalFailover,IP资源会转而挂在网卡2上,而不会自动倒切服务;
网卡1(命名为HOEGH-1)恢复时,ROSE HA会完成LocalFailover,IP资源会恢复挂在网卡1上,同样不会倒切服务

我们来看一下
LocalFailover过程中的ROSE HA的日志

点击(此处)折叠或打开

  1. [2016-07-27 12:34:46][ERROR]<5005>网卡(HOEGH-1)断开网络连接。
  2. [2016-07-27 12:34:48][INFO ]<5150>[LocalFailOver]本地停止资源组(Oracle)中的资源(IP-Oracle)开始。
  3. [2016-07-27 12:34:48][INFO ]<5008>停止网卡({17C98833-C217-43BB-8852-74D21D9A08DB})活动IP(192.168.58.115)成功。
  4. [2016-07-27 12:34:48][INFO ]<5152>[LocalFailOver]本地停止资源组(Oracle)中的资源(IP-Oracle)成功。
  5. [2016-07-27 12:34:48][INFO ]<5147>[LocalFailOver]本地启动资源组(Oracle)中的资源(IP-Oracle)开始。
  6. [2016-07-27 12:34:52][INFO ]<5011>启动网卡({C30FAA44-25C7-42DF-8859-AF21462E933F})活动IP(192.168.58.115)成功。
  7. [2016-07-27 12:34:52][INFO ]<5149>[LocalFailOver]本地启动资源组(Oracle)中的资源(IP-Oracle)成功。
  8. [2016-07-27 12:34:52][INFO ]<5202>资源组(Oracle)中资源(IP-Oracle)的本地failover成功。
  9. [2016-07-27 12:35:08][INFO ]<5410>客户端(sessionId:0x401)断开连接
  10. [2016-07-27 12:35:46][INFO ]<5006>网卡(HOEGH-1)的网络连接恢复正常。
  11. [2016-07-27 12:35:48][INFO ]<5150>[LocalFailOver]本地停止资源组(Oracle)中的资源(IP-Oracle)开始。
  12. [2016-07-27 12:35:48][INFO ]<5008>停止网卡({C30FAA44-25C7-42DF-8859-AF21462E933F})活动IP(192.168.58.115)成功。
  13. [2016-07-27 12:35:48][INFO ]<5152>[LocalFailOver]本地停止资源组(Oracle)中的资源(IP-Oracle)成功。
  14. [2016-07-27 12:35:48][INFO ]<5147>[LocalFailOver]本地启动资源组(Oracle)中的资源(IP-Oracle)开始。
  15. [2016-07-27 12:35:53][INFO ]<5011>启动网卡({17C98833-C217-43BB-8852-74D21D9A08DB})活动IP(192.168.58.115)成功。
  16. [2016-07-27 12:35:53][INFO ]<5149>[LocalFailOver]本地启动资源组(Oracle)中的资源(IP-Oracle)成功。
  17. [2016-07-27 12:35:53][INFO ]<5202>资源组(Oracle)中资源(IP-Oracle)的本地failover成功。

五、不完美的LocalFailover

配置IP资源的LocalFailover后,重复甲方的故障测试,系统没有倒切,Oracle服务没有中断。这也算是给甲方一个交代。
但是,这样会导致设备“带病工作”。
我们考虑以下场景,ROSE HA配置了IP资源的LocalFailover当当前主机的其中一片网卡故障后,系统不会倒切,而此时另外一个主机的两片网卡都是正常工作的。这一点不完美。
为此,我们和ROSE售后以及技术人员都沟通过,提出两点疑问:
1.如果两台主机配置了多个IP资源,那么当二者同时存在一片网卡故障时,考虑到健康度相等,ROSE HA应该保持原状,继续对外提供服务,而不是关闭服务;
2.ROSE HA配置了IP资源的LocalFailover后,可能存在“带病工作”的情况。
ROSE售后以及技术人员也承认存在这样的问题,但是,
他们暂时不会考虑去修改ROSE HA的倒切逻辑。

如果ROSE不改变,也许我们就得考虑改变了。



~~~~~~~ the end~~~~~~~~~
hoegh
2016.08.04


正文到此结束
Loading...