微软服务中断原因公布:Azure测试正常上线后故障

微软

昨天微软大量在线服务尤其是商业性服务出现中断,中断持续时间从2019年11月20日 00:57 UTC到03:30 UTC。这些在线服务出现中断的原因在于Microsoft Azure 故障,微软大量服务全部都运行在自家的共有云计算平台上。所以在云计算平台出现故障后这些在线服务无法访问其服务器和边缘节点,对于用户发出的访问请求也无法处理。

 

微软服务中断

 

测试期间未发现故障但上线后出现故障:

微软公布的Microsoft Azure 云计算平台故障初步调查结果显示,安全入口出现故障导致数据无法交付边缘节点。安全入口是微软云计算平台提供的安全可信的连接点,所有数据通过这个入口进入云计算平台再分发到边缘节点。微软表示这个入口为该公司全局网络提供边缘缓存和网络服务,因此在出现故障后也影响到微软大量的在线服务。该公司表示并非所有的服务都受到这次故障的影响,因为监测到故障后部分服务启动故障自动迁移得以快速恢复。而出现故障的安全入口在定期部署的初始安全检查中并未出现问题,于是微软工程师将服务推送到生产环境运行。

 

故障发生后该服务启动回滚:

监测到故障后微软工程师迅速将安全入口服务回滚到旧版本,在紧急故障无法找到原因时回滚是最快的解决办法。微软表示在2019年11月20日02:40UTC完成回滚流程 ,  此后受影响的服务逐渐开始恢复并在03:30UTC完成恢复。还有少部分在线服务的恢复时间比预期要长因此用户访问可能还有问题,不过随着时间的推移目前均已恢复正常。最后微软表示将在72小时内发布Microsoft Azure FrontDoor安全入口故障的详细调查信息确定故障的具体原因。

相关文章