名场面?冥场面!
速来围观 2023 十大宕机事故 “冥场面”——
哔哩哔哩(B 站)崩了两次
2023 年 3 月 5 日晚 20:20 左右,许多网友表示在使用 B 站时,手机和电脑端都无法访问视频详情页,且手机端无法查看收藏夹与历史记录。还有网友表示,首页能够正常加载,但全部是繁体字。
8 月 4 日晚间,距离上次事故 5 个月后,又有许多网友反馈 B 站图片(视频封面)无法加载、视频无法打开、视频一直在缓冲。
腾讯 “3.29” 一级事故
2023 年 3 月 29 日凌晨,腾讯旗下的微信和 QQ 等业务曾出现崩溃状况,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和 QQ 邮箱在内的多个功能无法使用。
直到 29 日早间,腾讯微信团队才回应表示,经工程师抢修,系统正在逐步恢复。
本次事故由广州电信机房冷却系统故障导致,腾讯将它定义为公司一级事故,并对大量相关领导做出了处罚。
4 月 12 日,工业和信息化部信息通信管理局听取腾讯公司关于 “3・29” 微信业务异常情况汇报,要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故,切实提升公众业务安全稳定运行水平。
唯品会 329 事故处罚结果:基础平台部负责人被免职
今年 3 月 29 日,“唯品会崩了” 登上热搜,由于崩溃时间太长,影响了很多消费者无法正常下单。唯品会官方对此回应称,因系统短时故障,主站 “加购” 等功能或出现异常。
6 月 5 日,唯品会发布 “关于 329 机房宕机故障处理的公告”。公告称,3 月 29 日(00:14-12:01)南沙 IDC 冷冻系统故障,导致机房设备温度快速升高宕机,造成线上商城停止服务。此次事故影响时间持续 12 个小时,导致唯品会业绩损失超亿元,影响客户达 800 万,唯品会将此次故障判定为 P0 级故障。据了解,P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大(即使 Bug 本身不严重)。
公告指出,唯品会决定对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职作相应处理。
微软 Azure 故障,17 个生产级数据库被删
5 月 24 日,微软 Azure DevOps 在巴西南部地区的一处 scale-unit 发生故障,导致宕机约 10.5 个小时。后续微软首席软件工程经理 Eric Mattingly 出面针对此次故障事件道歉,并透露了导致中断的原因:即,一个简单的拼写错误致使 17 个生产级数据库被删除。
up-d28b235003ee1390973397efd32e59d2ee1.png
中国电信出现大规模无服务问题
2023 年 6 月 8 日下午,中国电信的网络和通信服务出现无信号等失灵现象,绝大部分反馈的用户都在广东区域,疑似广东省内故障。
此后中国电信客服回应表示,电信基站全省(广东电信)故障,暂时不能拨打电话,请耐心等待,现在紧急加急处理中,不便之处,敬请谅解。
历时 4 个小时左右,广东省内电信网络全面恢复。
语雀 10.23 重大服务故障,持续 7 小时
2023 年 10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复。语雀团队后续公布了故障原因及处理过程:
10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。
阿里云 11.12 重大服务故障,全线产品受影响
2023 年 11 月 12 日下午,阿里云出现严重故障,全线产品受影响。
后续官方确认故障原因与某个底层服务组件有关。在历时约 5 个小时后,阿里云宣布受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。
滴滴 11.27 系统服务故障,技术团队连夜修复
2023 年 11 月 27 日晚间,滴滴因系统故障导致 App 服务异常,不显示定位且无法打车。11 月 27 日晚,滴滴出行进行了回复:非常抱歉,由于系统故障,今天晚间滴滴 App 服务出现异常,经技术同学紧急修复,目前正陆续恢复中。
2023 年 11 月 28 日早间,滴滴出行消息称,网约车等服务已恢复,骑车等在陆续修复中。11 月 28 日,在滴滴发出公告的同时,记者在上海、深圳等地使用滴滴呼叫网约车,发现网约车功能并未恢复使用,网络加载异常,仍无法打车。11 月 28 日,滴滴向记者回应称,网约车服务已恢复,司机乘客权益陆续恢复补发。
11 月 29 日,滴滴再次发文致歉,称初步确定事故起因是底层系统软件发生故障。
推特严重宕机,马斯克暴怒
2023 年 2 月,马斯克因其关于超级碗的推文曝光度不如美国总统拜登,而深夜紧急召集约 80 人解决算法问题。
3 月份,因一名工程师修改配置导致推特出现严重的宕机故障,马斯克扬言要将代码全部进行重构。
7 月份,用户反馈平台再次出现问题,无法发布新推文,收到 “超出限制” 的错误提示。马斯克则回应称,Twitter 正在努力应对 “极端程度的数据抓取” 和 “系统操纵”,这些新的限制是遏制这些紧迫问题的重要措施。
ChatGPT 服务中断近 2 小时,CEO 奥特曼道歉:流量远超预期
北京时间 11 月 8 日晚 22 点左右,OpenAI 旗下 ChatGPT 以及相关 API 出现中断故障,导致面向用户和开发者的服务近 2 小时无法正常使用。
随后 OpenAl 更新事故报告称,已确定了一个导致 API 和 ChatGPT 错误率高的问题,正在努力修复。
与此同时,OpenAI CEO 山姆・奥特曼公开致歉称,本周发布的新功能遇到远超预期的使用量。公司原计划在周一为所有订阅者启用 GPTs 服务,但目前还无法实现。由于负载的原因,短期内可能会出现服务不稳定的情况,对此情况向用户道歉。
延伸阅读:网信办发布《网络安全事件报告管理办法(征求意见稿)》
更多年度重磅事件回顾,查看《2023 中国开源开发者报告》。