首页 运维干货又又又断电?从某Cloud数据中心电力故障看UPS可靠性

又又又断电?从某Cloud数据中心电力故障看UPS可靠性

运维派隶属马哥教育旗下专业运维社区,是国内成立最早的IT运维技术社区,欢迎关注公众号:yunweipai
领取学习更多免费Linux云计算、Python、Docker、K8s教程关注公众号:马哥linux运维

在数据中心大谈云化,众多厂家“无云不宣”的时候,人们却发现:理论上更加安全、更加可靠、更加便捷的Cloud DC们,却似乎变得更加脆弱了。除了服务器宕机,断网、断电等事故也时有发生,连挖土机都有可能挖断光缆。当一朵朵“云”在天上飘的时候,背后的那根“安全线”也比任何时候更加不容忽视。

2017年3月22日,青云(QingCloud)因北京2区(PEK 2)数据中心电力故障引发部分网关设备及计算节点重启,目前故障虽然已经排除,但也造成了不小的影响。

数据中心

近年来,大家频繁听到云数据中心因异常导致业务中断的事情发生,在数字化的现代社会,数据中心的可靠性如果稍稍动摇,其造成的影响如同蝴蝶效应,不可避免会波及终端客户的正常运营和影响自身声誉。因而每一次故障的发生不仅仅需要事故方自检排查,更需要整个行业一起反思,从中获益。虽然官方没有给出确切的故障原因,本文将参照青云事后发布的故障报告,大致分析故障原因,并以此为契机,给出一些思考与建议。

据青云官方称:具体故障发生过程为,该数据中心需要对A组UPS进行定期离线维护作业所以将负载从A路UPS整体切换到B路UPS,但是3个小时之后B路电源UPS出现单台机组报故障,随后整组UPS过载。1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态。大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象。将近2个小时之后为了原因调查,UPS被完全隔离。

数据中心

虽然目前还没有正式的分析报告出来,但是从报告中我们还是可以管中窥豹,从中看出一些问题。

一、传统塔式UPS离线维护风险大。在发生故障的第一环节是离线维护引起的,研究表明有50%~60%的数据中心的停机都是由人为错误引起的,这与塔式UPS结构息息相关。

传统塔式UPS是一个整体,其内部系统复杂,UPS出了故障后,问题的定位和维修是很大的工程量,并且需要专家到现场才能定位、维修,且这个过程是离线的,此时UPS系统工作在维修旁路,这就意味着,当市电中断时,如果单机供电,负载将直接中断。

二、传统塔式UPS维护时间长。上文已经提到,塔式UPS的维护往往是个专业过程,维护工作量大,一般维护时间常常是数小时甚至数十小时,这就加大了业务中断的风险。

三、青云所用的UPS本身可靠性设计令人担忧。从报告中看 “B路电源UPS出现单台机组报故障,随后整组UPS过载。1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态。大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象。”这段描述性文字可以看出,青云所用UPS在过载状态下,主旁切换逻辑出现重大问题,本身可靠性设计堪忧。

UPS发展至今,传统塔式UPS低可用性已经无法跟上数据中心IT设施的发展速度,要提升可用性,缩短故障维护时间,模块化UPS是唯一方向。模块可热插拔是所有UPS厂家对模块化UPS的基本要求,故障时通过热插拔更换模块,5分钟即可完成在线维护,这与传统塔式UPS动辄8小时以上的离线维护时间相比,是个巨大的提升,当然在线与离线相比,对负载的重要性也不言而喻;部分厂家甚至将静态旁路、控制模块等等都做了热插拔设计,进一步提升系统可用性。

此外,传统塔机单点故障多,单点故障,常常引起整个系统中断,相比而言模块化UPS关键节点可以通过冗余设计提升可靠性,在整个系统运行时,负载率一般会低于50%,此时多个模块故障,仍然可以保证UPS正常带载,直接规避了上文所说的过载问题。

最后,用户在使用UPS,进行招标时,对于UPS可靠性的要求应该更加严格,严格的标准才能大浪淘沙,让真正可靠的UPS脱颖而出,为更多的用户谋福利。

从近年来的集采可以看出,模块化UPS所占比例节节攀升,逐步成为集采主流机型,这也从侧面印证了市场趋势,从业务出发,客户也不愿意使用维修困难的UPS,正在追求更高可用性的UPS。

UPS作为电力守护者,为各个行业的关键负责设备提供稳定、不间断的电力供应。从近几年的市场表现来看,模块化UPS的可靠性正在逐步被行业认可。相对于传统的高频塔式UPS,模块化UPS可以不断电维护,单模块故障不影响系统运行,高效节能等特性更符合数据中心应用。

文章来自微信公众号:数据中心运维管理

本文链接:http://www.yunweipai.com/15446.html

网友评论comments

发表评论

邮箱地址不会被公开。

暂无评论

Copyright © 2012-2021 YUNWEIPAI.COM - 运维派 京ICP备16064699号-6
扫二维码
扫二维码
返回顶部