什么时候需要99.999%的可靠性?

wpid-iSight-2012-09-29-06-54.tiff高可用是IT世界中的一个重要领域,不过,对大多少IT公司或组织来说,高可用性达到99.999%是没必要的。

一个公司或组织是否需要99.999%的可靠性,依赖许多因素:软件成本,公司财力能否承担等。
“当你的设备处理人命关天的事情,或业务中断一分钟就会损失百万美刀,那么你可以考虑99.99%的可靠性。”Robertson(Linux高可用项目开发者)如是说。

权衡高可用的付出与得到
实现高可用系统的成本,不论是99.99%还是99.999%,都包含了软件成本,硬件成本,人力成本,还有培训支出。当一个公司打算要做高可用系统之前,最好先权衡,构建高可用系统的成本,与系统业务中断所带来的损失,哪个付出更多。若不想付出太多的资金在构建高可用系统上,那么就得分析你的系统,什么时候会出现业务中断,控制住业务中断所带来得损失,以及构建快速恢复的能力。
实际上,关乎每分钟有百万美刀的系统,也可以不用做5个9的高可用系统,只要能够控制到有计划地中断业务(也可以说是中断业务可控制),如在交易时候业务不中断业务即可。
根据爱默生对41家数据中心的统计数据报告发现:非计划的业务中断是导致公司业绩损失的主要因素”。报告中还指出:“业务中断后的故障定位,分析与解决,也需要耗费不少财力”

如果一个公司的业务承诺的可靠性是99.99%,那么每年只允许业务中断8.76小时。如果业务中断导致的损失是每小时100万,那么一年的损失是876万。
但是,如果这个公司承诺的可靠性是99.999%,那么每年只允许业务中断不超过1个小时,如果业务中断导致的损失是每小时100万,那么一年的损失小于100万。
我们可以算到,可靠性从99.99%提升到99.999%,可以挽回大概700万的损失。那么这种情况下是值得的。
但是如果你提升可靠性到99.999%上面的花费,超过了700万,那保持99.99%的可靠性也是一种选择。

任何产品都需要考虑投入与产出比,那么你允许的业务中断时间是多少?

99.99%的可靠性对大多数业务来说是足够的,对于一些离线业务,99.9%可靠性大部分场景下也够用了。

实现99.99%的可靠性
在一些领域,99.999%可靠性是必须的,如运输行业。假如火车控制系统故障了,那么可能成千上万的旅客就会被滞留。(天朝的7.23事故大家都知道)
这种场景下,实现99.999%可靠性通常使用容错处理,包含软件的容错和硬件的容错。常见的软件容错有负载均衡,就是多个实例同时提供服务。当软件容错不起作用时候,就需要用到硬件容错,硬件容错一半是做硬件冗余,如两个服务器做主备。

网友评论comments

发表评论

电子邮件地址不会被公开。 必填项已用*标注

  1. ibusybox说道:

    99.999%的可靠性应该不是这么算的 你是不是漏了个%号了
    60*60*24*365=31536000秒
    31536000*0.99999=31535684.64秒
    31536000-31535684.64=315.36秒
    约等于5分15秒

    一年只允许5分多钟,所以才凸显出online方案的价值 哈

  2. Guang说道:

    这个常称为5个9的可靠性,并不是所有的业务都需要这么高的可靠性,5个9的可靠性是需要为此付出巨额的开销和维护成本的。

    在软件和方案设计层面可以将业务拆分,只需保证关键业务的高可靠性,爱立信的OSS业务的5个9就是这么个思路。

Copyright © 2012-2017 YUNWEIPAI.COM - 运维派 - 粤ICP备14090526号-3
扫二维码
扫二维码
返回顶部