首页 运维资讯[2015.6.6]QingCloud因雷暴引起的广东1区IDC电力故障,业务中断2小时

[2015.6.6]QingCloud因雷暴引起的广东1区IDC电力故障,业务中断2小时

运维派隶属马哥教育旗下专业运维社区,是国内成立最早的IT运维技术社区,欢迎关注公众号:yunweipai
领取学习更多免费Linux云计算、Python、Docker、K8s教程关注公众号:马哥linux运维

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。设备重启后2小时31分GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。故障处理详情参见(http://weibo.com/p/1001603851139949969857
故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。

截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:

  1. 电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。
  2. 防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。

但我们对其中的细节披露和专业解释仍存在以下疑问:

  1. 目前建筑防雷系统已相当成熟,可以防感应雷、直击雷和侧击雷。专业的IT基础设施中的四级防雷系统更应该是如此,本次事故中机房的防雷系统为何未能成功防护直击雷?
  2. 专业的IT设施防雷系统同民用防雷系统相比防护标准更加严格,本次事故的发生究竟是因为防雷系统失效还是因为防雷标准达不到专业IT设施标准?
  3. 防雷系统中包含浪涌保护器,在正常情况下,防雷系统和浪涌保护器会释放掉因雷击产生的瞬时脉冲,从而保证UPS不会产生瞬断。那么昨天的事故中是否存在浪涌保护器失效,未能释放掉因雷击产生的瞬时脉冲,进而导致UPS的断电保护?

就上述疑问,我们正在同睿江科技进行持续沟通以获得真实可信的故障原因分析,也会向用户完整、透明地披露相关信息。

针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:

  1. 故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的重要性,因此需要检讨在本次故障通告方面做的不够及时。为此我们制定了未来紧急情况下保障信息通知更加及时、准确的方案。我们会在第一时间通过网站、控制台及“青云QingCloud服务健康状态监控”网站(http://status.qingcloud.com)发布和更新系统异常及故障排除进展的通告,也会更及时地通过短信和邮件等形式向受影响的用户推送相关信息,以保证用户能更及时和准确地了解服务状态。我们非常理解在出现故障时用户面临着巨大的业务端压力,因此由衷地感谢用户们在了解故障信息后对我们给予的理解和支持;
  2. 在任何故障情况下,保障官网及控制台正常访问。目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;
  3. 在出现全部设备重启等极端故障情况下,更快地恢复管理服务和业务系统。本次在设备重启后,我们是通过Bots系统和人工操作结合的方式恢复了GD1的管理服务和用户业务,未来我们会编写更加智能的软件脚本,保障在极端情况下,业务系统能够更快速地恢复,将可能造成的损失降到更低;
  4. 提高IDC服务保障水平。我们会同目前公有云四个区所在机房分别就电力、暖通、网络等各个专业系统的基础设施水平、运营管理流程规范等方面进行更加严格和全面的检查,并同IDC运营商一同定期进行灾难演练,最大程度避免基础设施故障的发生;同时进一步加强同IDC运营商之间的信息沟通效率,确保第一时间了解任何异常情况;
  5. 容灾保护能力提升。将实现关键业务的容灾能力作为长期努力的目标,通过连接各个区的环网的建设和运营等手段实现更好的容灾能力。

综上,我们会全面审核故障处理流程,以应对机房断电等最极端的事故为标准进一步提升QingCloud系统的可用性,让信息传递更加及时和透明,通过自动化手段提高切换和业务恢复速度,让曾经发生的故障成为我们不断进步的和提高服务能力的源泉。

青云QingCloud

附 《关于20150606XX机房故障说明-青云》

qingcloud_20150606

qingcloud_20150606_2

qingcloud_20150606_3 qingcloud_20150606_04

本文链接:https://www.yunweipai.com/4980.html

网友评论comments

发表回复

您的电子邮箱地址不会被公开。

暂无评论

Copyright © 2012-2022 YUNWEIPAI.COM - 运维派 京ICP备16064699号-6
扫二维码
扫二维码
返回顶部