首页 运维杂谈Azure中国的故障也不少啊……

Azure中国的故障也不少啊……

运维派隶属马哥教育旗下专业运维社区,是国内成立最早的IT运维技术社区,欢迎关注公众号:yunweipai
领取学习更多免费Linux云计算、Python、Docker、K8s教程关注公众号:马哥linux运维

3月1日:RCA – Storage Latency Issue on China East

事件总结:北京时间2017年3月1日03:00到21:45,部分客户在访问其位于中国东部的存储资源时可能遇到了延迟变高或者访问超时的问题。

问题原因:Azure内部的一系列数据操作意外触发了大量存储访问请求,这些请求在存储服务的前端快速积累并形成严重的资源争用,导致来自客户的数据访问请求难以被及时处理从而出现了明显的延迟增高。

Azure运维团队对引起资源争用的请求采取了隔离措施并成功恢复了服务。

根本原因及解决办法:Azure存储服务是一个多租户环境,通过流量隔离来优化资源分配。

在此次事件中,受影响的存储缩放单元对一类特定的访问流量的隔离优化不够完善,导致在前端服务器上出现了过度资源争用,最终耗尽了工作线程并导致访问延迟增高。

下一步举措:我们对由此给您带来的影响表示诚挚的歉意。我们正在采取措施来优化Microsoft Azure平台和运维流程,以帮助避免此类问题再次发生。

对于本次事件(包括但不限于):Azure工程团队对导致问题的流量模式进行了深入检视并改进了流量隔离机制;优化存储缓存设计来降低资源争用的发生。

3月2日:App Service \ Web Apps – China North

事件总结:自北京时间2017年3月2日08:55(大概时间)至 20:14,中国北部App Service \ Web Apps的部分客户在尝试执行管理操作(如创建,更新,删除,发布)时可能会收到错误通知。

初步调查结果:工程师确定最近的一次部署可能是导致此次问题的根本原因。

解决办法:工程师撤销了最近的部署任务,问题得到解决。

下一步:工程师将审查部署程序,以防止问题再次发生。

3月17日:Stream Analytics – China East

事件总结:从北京时间2017年3月17日4:43到9:45,在中国东部使用Stream Analytics的部分客户在启动streaming jobs时可能会收到错误通知,但是服务管理操作,例如Streaming Jobs的创建,更新和删除操作都可以正常执行。此区域已经存在的streaming jobs也可能受到影响。

初步调查结果:该问题是由近期的一个部署任务导致的。

解决办法:工程师快速修复了故障并且重新启动了所有受此次影响而停止运行的streaming jobs。

下一步举措:工程师将审查部署程序,以防止问题再次发生。

3月21日:Root Cause Analysis – Virtual Machines – China East

事件总结:北京时间2017年3月21日8:00到14:50,部分客户在中国东部尝试创建新虚拟机或者启动处于”已停止 (已取消分配) “状态的虚拟机时可能会收到错误信息。

原因是中国东部的两个扩展单元达到了一个操作阈值从而导致资源分配受到了临时性限制。工程师通过优化操作阈值设置来改进资源分配和利用效率从而解决了此问题。

客户影响:客户可能在执行以下操作时收到错误信息:

  1. 创建新的或者启动”已停止 (已取消分配) “状态的非空可用性集里的资源管理型虚拟机。
  2. 创建新的或者启动”已停止 (已取消分配) “状态的非空云服务或地缘组里的经典模式虚拟机。

根本原因及解决办法:此次故障的根本原因是中国东部的两个扩展单元达到了一个操作安全阈值,系统自动冻结了部分管理操作以保证扩展单元上的其他运算任务安全运行。

下一步举措:我们诚挚的向所有被本次故障影响到的客户表示歉意。我们正在不断采取措施来优化Microsoft Azure平台及运维流程,力争避免将来该问题再次发生。

对于本次事件(包括但不限于):预留足够的缓冲资源以确保系统在操作阈值安全范围之内平稳运行。

4月6日:Power BI Embedded – China East

事件总结:从北京时间2017年4月6日04:07至2017年4月6日19:16,部分用户在使用中国东部的Power BI 的资源时可能会收到连接错误的通知。

初步调查结果:工程师发现一个错误的配置导致了请求无法完成。

解决办法:工程师修复了错误配置,解决了此问题。

下一步举措:工程师将持续调查该问题的根本原因,以防止该问题再次出现。

4月7日:RCA – Storage, Virtual Machines, SQL Database, Azure Active Directory – China East and China North

事件总结:北京时间2017年4月5日20:00到2017年4月10日15:18,部分客户在连接或者管理中国东部和中国北部的存储服务、虚拟机、HDInsight服务、Azure活动目录并需要部署虚拟机或虚拟磁盘时可能遇到问题。到存储资源的现存连接没有受到影响。在北京时间2017年4月6日16:00到2017年4月7日18:54,非常有限的一小部分客户在使用中国北部和中国东部的SQL数据库时可能遇到了无法访问数据库服务的问题。新建连接到现存数据库时可能会遇到错误信息或者连接超时,现存的连接可能被意外中止。

根本原因:中国地区的Azure存储服务和Azure管理门户使用安全传输层协议(TLS)证书来实现数据加密传输。TLS证书是由第三方证书颁发机构颁发的,该机构的众多客户(包括Azure服务)通过另一个外部机构颁发的交叉认证来构建证书信任链。在北京时间2017年4月5日,这个外部机构吊销了交叉认证证书。这个错误的行为影响了Azure存储服务、管理门户以及其它依赖此交叉认证的服务。

对于Azure客户来讲,影响分为直接影响和间接影响两类:

  1. 部分Azure存储的客户由于TLS证书的问题导致存储服务不受信任而无法连接到存储服务;
  2. Azure内部依赖于存储的其它服务由于同样的原因无法正常工作。这导致虚拟机,HDInsight,SQL数据库和活动目录管理服务无法响应客户请求,从而导致使用这些服务的客户也遇到错误。在北京时间2017年4月7日 02:14,上述外部机构恢复了吊销的交叉认证证书。由于公共密钥基础设施(PKI)系统涉及到多层缓存,因此需要额外时间来分发并应用更新过的证书吊销列表。至4月7日11:59,绝大部分客户的问题得到恢复,但是由于PKI多层缓存机制,直到北京时间2017年4月10日15:18所有服务才完全恢复。此类(证书颁发机构误操作)事件异常罕见,大部分的应急缓解措施经由手动完成,这延误了服务恢复过程。

下一步举措:我们诚挚的向所有被本次故障影响到的客户表示歉意。我们正在不断采取措施来优化Microsoft Azure平台及运维流程,力争避免将来该问题再次发生,

对于本次事件(包括但不限于):

  1. 我们正在与多家证书颁发机构合作来降低单一证书颁发机构发生问题对Azure服务造成影响的可能性
  2. 开发自动化工具对Azure服务器上的PKI缓存进行清理,加快服务恢复进程。

4月11日:Azure IoT Suite – China East and China North

从北京时间2017年4月8日15:15至2017年4月11日10:00,客户在使用Azure IoT套件时可能会无法创建新的解决方案。作为临时解决方案,工程师推荐用户使用来自https://aka.ms/rms_git的代码进行部署。已存在的资源不受影响。

初步调查结果:工程师诊断初始原因是由于最近的后台系统改动引起。

解决办法:工程师在平台上部署了修复补丁解决了此问题。

下一步举措:工程师将继续深入调查事件的根本原因,以防止该问题再次出现。

4月12日:Management Portal – China

事件总结:从北京时间2017年4月8日22:33至2017年4月12日04:45,部分客户在访问中国的Azure经典管理门户(https://manage.windowsazure.cn)查看已创建的虚拟机自定义镜像时可能会间歇性的遇到问题,新建镜像可被正常访问。作为临时解决方案,遇到上述问题的自定义镜像可以在新的Azure管理门户查看到(https://portal.azure.cn/),也可以使用PowerShell进行部署。

初步调查结果:工程师检测到一个配置变化可能是导致该问题的根本原因。

解决办法:工程师针对该问题进行了一个配置更新来解决这一问题。

下一步举措:工程师将持续深入调查该事件的根本原因,以防止该问题再次出现。

本文链接:https://www.yunweipai.com/14525.html

网友评论comments

发表回复

您的电子邮箱地址不会被公开。

暂无评论

Copyright © 2012-2022 YUNWEIPAI.COM - 运维派 京ICP备16064699号-6
扫二维码
扫二维码
返回顶部