阿里云回应服务中断事件。阿里云发布香港可用区C服务中断事件说明,称将尽快处理赔偿事宜。
36氪获悉,12月25日,阿里云发布香港Region可用区C服务中断事件说明,并向所有受到故障影响的客户公开致歉,称将尽快处理赔偿事宜。阿里云回应服务中断事件,阿里云表示,将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性。
12月25日消息,阿里云今日发布《关于阿里云香港Region可用区C服务中断事件的说明》称,12月18日,阿里云香港Region可用区C发生大规模服务中断事件。经过复盘,阿里云进一步说明了故障情况、问题分析和改进措施。
IT之家了解到,阿里云在说明中向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。
阿里云表示,此次香港Region可用区C服务中断事件,对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。
以下为阿里云《关于阿里云香港Region可用区C服务中断事件的说明》全文:
北京时间2022年12月18日,阿里云香港Region可用区C发生大规模服务中断事件。经过复盘,我们在这里向大家进一步说明故障情况、问题分析和改进措施。
处理过程
12月18日08:56,阿里云监控到香港Region可用区C机房包间通道温控告警,阿里云工程师介入应急处理,通知机房服务商进行现场排查。09:01,阿里云监控到该机房多个包间温升告警,此时工程师排查到冷机异常。09:09,机房服务商按应急预案对异常冷机进行4+4主备切换以及重启,但操作失败,冷水机组无法恢复正常。09:17,依照故障处理流程,启动制冷异常应急预案,进行辅助散热和应急通风。尝试对冷机控制系统逐个进行隔离和手工恢复操作,但发现无法稳定运行,联系冷机设备供应商到现场排查。此时,由于高温原因,部分服务器开始受到影响。