网站首页 > 博客文章 正文
2023 年 11 月 12 日,阿里云出现了一次史诗级故障,影响甚广。
近日网上曝光了阿里云发给客户的一份“故障分析报告”。
影响范围
1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。
2、云产品控制台、管控 API 等功能受到影响。
时间
2023 年 11 月 12 日 17:39~19.20,故障时间为 1 小时 41 分。
问题概况
2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。
处理过程
- 17:39:阿里云云产品控制台访问及管控 API 调用出现异常。
- 17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
- 18:01:工程师定位到根因。
- 18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
- 18:35:杭州等 Region 开始恢复正常。
- 19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。
原因
访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。
改进措施
1、增加 AK 服务白名单生成结果的校验及告警拦截能力。
2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
3、增加 AK 服务白名单的快速恢复能力。
4、加强云产品侧的联动恢复能力。
网友评论
@XYC:
坏消息:降本增效到了深水区。
好消息:阿里往社会输送的是真人才。
@易希
一个坏消息和 3 个好消息。
坏消息是发生了史诗级的故障。
好消息 1: 拥有了其他云不具备的处理史诗级故障的能力。
好消息 2: 已经发生过一次概率为百万分之 3 的故障了,下次发生故障是千年以后的事情了,现在大家可以放心用了。
好消息 3: 这次真正的抓住了用户痛点。
@王万德
裁员的后遗症。
裁员总是先裁一线干活的,留下擅长写 ppt 和敢于吹牛的人。
其中“敢于吹牛的人”是最隐蔽,但是危害最大的。他们往往敢于把自己伪装成专家,欺骗外行(在互联网公司里,外行是那些高管),升职加薪,获得裁员“豁免权”,从此再也没办法被清除。
@乐扣盒子
又想到了 360 大佬的话,公司做大了之后会有死海效应,做实事的往往会最先离职,都蒸发了,最后留下的都是混日子的老油条,包括管理层也一样。
阿里云上一任 CEO 的原话是:我不关心技术,技术不值钱,我关心的是成本。
这次事故可能把阿里最后的护城河填平了。
- 上一篇: VPC最佳实践:VPC内如何使用云产品
- 下一篇: 阿里云於美国矽谷第2个数据中心投入运作
猜你喜欢
- 2024-09-21 阿里企业邮箱:您的不二之选(阿里企业版邮箱)
- 2024-09-21 技术干货:阿里云构建千万级别架构演变之路
- 2024-09-21 消息点击率翻倍,原来这就是闲鱼背后的神器
- 2024-09-21 数据架构:概念、冷热分离与实践思考
- 2024-09-21 阿里云於美国矽谷第2个数据中心投入运作
- 2024-09-21 VPC最佳实践:VPC内如何使用云产品
- 2024-09-21 阿里云AHASChaos:业务高可用提升工具平台之故障演练
- 2024-09-21 阿里云新加坡节点故障 因机房火灾
- 2024-09-21 自研存储网络技术加持 阿里云盘公测:上传/下载不限速
- 2024-09-21 阿里云推出首款个人云产品 自研存储网络技术已在全球领先行列
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)