滴滴公布P0级事故原因,业界宕机频发究竟啥情况?
dbaplus社群
2023-11-30 13:44:52

原标题:滴滴公布P0级事故原因,业界宕机频发究竟啥情况?

滴滴官方公布P0级事故原因

11月29日,滴滴出行再就27日夜间系统故障致歉,提出了相应的补救措施和补偿方案。并公布了本次事故的初步调查结果:起因是底层系统软件发生故障,并非网传的“遭受攻击”。

同时,滴滴表示,当前所有服务已全部恢复,后续将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。

滴滴拥有庞大的业务线,其底层系统由复杂的软硬件构成,其中包括服务器、网络设备、数据库等等重要组成部分,任何一个环节出现故障,都有可能导致整个系统崩溃,用户无法正常使用服务。

然而,有网友对此提出质疑,表示“基础中台出问题,不太能接受,通常底层框架服务应该是最稳定的。”也有网传滴滴故障真实原因是:K8s版本升级错误,导致控制节点挂了……

更详细真实的故障复盘,我们也期待滴滴官方后续进一步的说明。

接二连三的宕机事件

这次宕机持续近12个小时,算是滴滴近年来瘫痪时间最长的一次故障。据此,有媒体估计将会让滴滴损失过千万的订单量和超4亿的交易额。

而除了滴滴外,近期,阿里云在不到10天的时间里也出现了两次故障。

第一次是11月12日下午5点多,阿里云出现异常,随之“淘宝又崩了”“闲鱼崩了”“阿里云盘崩了”“钉钉崩了”等话题相继登上微博热搜。

原因是2023年11月12日17:44起,阿里云产品控制台访问及API调用出现出现使用异常,阿里云工程师正在紧急介入排查。当天晚上7点20左右恢复正常。

第二次同样发生在11月27日。阿里云声明称11月27日09:16起,阿里云监控发现北京、上海、杭州、深圳、青岛 、香港以及美东、美西地域的数据库产品(RDS、PolarDB、Redis等)的控制台和OpenAPI访问出现异常,实例运行不受影响。经过工程师紧急处理,访问异常问题已于当日10:58恢复。

还有一个月前。语雀(在线文档编辑与协同工具)发生服务器故障,在线文档和官网目前均无法打开。当日 15 时,语雀发布官方声明称,“目前因网络故障,出现无法访问的情况。此故障不会影响用户在语雀存储的数据,不会引起数据丢失,我们正在紧急恢复中,再次抱歉给你带来的损失。”

……

不断频发的宕机事件,警醒着大家:技术风险保障和高可用架构设计非常重要,确保数据备份、系统容错能力,如增加存储系统的异地灾备,实现快速恢复,并进行定期的容灾应急演练,缩小运维动作灰度范围。今后,我们也要加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生。

宕机原因五花八门,“开猿节流”是主要原因?

服务器宕机的原因五花八门,常见原因有:

  • 硬件故障:服务器的硬件组件(如电源、内存、硬盘、主板等)出现故障,导致系统无法正常工作。
  • 软件问题:操作系统、应用程序或驱动程序出现错误、崩溃或冲突,导致系统不稳定甚至宕机。
  • 资源耗尽:CPU、内存、磁盘空间或网络带宽等资源耗尽,使服务器无法继续运行。
  • 网络问题:网络故障、网络攻击(如DDoS攻击)或网络设备问题导致服务器无法正常访问或通信。
  • 电力问题:电源不稳定、电压波动、电力供应中断等问题导致服务器关机或宕机。
  • 安全问题:恶意攻击、病毒、恶意软件或黑客入侵导致服务器宕机或无法正常工作。
  • 操作错误:误操作、配置错误或不当的系统管理操作可能导致服务器不稳定或宕机。
  • 数据库问题:数据库故障、死锁、数据损坏等问题可能影响应用程序和服务器的正常运行。
  • 温度问题:过高的温度可能导致服务器硬件损坏或系统关机,尤其是在散热不良的情况下。

除了以上原因,还要考虑天灾和极端情况的因素……

服务器宕机是个复杂的问题,可能受到多重因素的影响,背后的原因也比我们想象的复杂。

当然,宕机频发和长期的降本增效、大范围裁员同步出现,难免让人怀疑两者之间存在某种微妙的关联,不少人认为最近频繁的宕机或许和人员优化有关,得出人才缺失的结论。

不可否认的是,当前互联网大厂仍在疯狂砍预算,大规模裁员的信号在近两年从未消失。资深技术人员不仅业务水平有保障,可以更准确、快速识别系统漏洞,处理现场故障的经验更丰富,裁员引发的人员波动,资深技术人员流失,势必会产生一系列的影响。

而宕机是否和降本增效直接相关,是一个复杂的问题。

对于这一系列的事件及论点,你怎么看呢?欢迎大家在评论区留言交流~

>>>>来源&参考资料

  • https://it.sohu.com/a/739817138_116157
  • https://baijiahao.baidu.com/s?id=1783818862961454961&wfr=spider&for=pc

直播预告丨降本增效持续深化,如何找准FinOps关键着力点?

企业落地FinOps有哪些实施路径和阶段规划?2023年,业界FinOps取得了哪些进展?本次专题探讨,希望汇集中国信通院云大所 业务主管 尚梦宸、中国信通院云大所 研究员 白璐、小红书 基础技术部 混合云资源管理负责人 梁啟成三位FinOps专家的研究成果和实践积累,进一步解决云成本优化管理的痛难点,为大家提供FinOps的前沿研究成果与行之有效的实战经验。

  • 时间:12月6日周三晚7点
  • 地点:dbaplus社群视频号/deeplus线上直播间
  • 直播地址:z-mz.cn/80r2T

直播预告丨货拉拉微服务架构演进与数据库中间件、DevOps建设之路

随着AI、云计算等新兴技术应用场景不断扩展,传统的IT架构、数据库管理与开发运维交互模式正面临前所未有的挑战与机遇。为此,dbaplus社群携手货拉拉三位技术专家,围绕“货拉拉微服务架构演进与数据库中间件、DevOps建设之路”这一主题开展线上直播分享,和大家一起深度探讨服务治理、中间件、DataMesh、DevOps等议题。

  • 观看方式:线上直播间/dbaplus社群视频号
  • 直播时间:2023年12月8日(周五)14:30-17:00
  • 直播地址:z-mz.cn/7z1Ko

相关内容

热门资讯

分享实测辅助!玉溪娱乐挂辅助器... 您好,玉溪娱乐这款游戏可以开挂的,确实是有挂的,需要了解加微【1184260】很多玩家在这款游戏中打...
最新研发!Tpuke外挂辅助器... 最新研发!Tpuke外挂辅助器方法了,aapoker辅助挂工具,详细教程(2023已更新)(哔哩哔哩...
原创 【... 内容概况:中高压变频器在工业生产中扮演着重要角色,主要用于调节电动机的转速和运行状态,以适应不同的工...
最新研发!WEPokeR外挂辅... 最新研发!WEPokeR外挂辅助器方法了,aapoker辅助挂工具,详细教程(2023已更新)(哔哩...
分享实测辅助!啪啪赢麻将挂辅助... 您好.啪啪赢麻将这款游戏可以开挂的,确实是有挂的,需要了解加微【1184260】很多玩家在这款游戏中...
消息称韩国AI芯片企业Rebe... IT之家 1 月 13 日消息,韩媒 DealSite 当地时间 12 日报道称,韩国 AI 芯片企...
扎克伯格官宣Meta Comp... 1 月 13 日消息,Meta 公司首席执行官马克・扎克伯格(Mark Zuckerberg)今天(...
2024最新辅助(微信小程序打... 无需打开直接搜索微信:【1816243】本司针对手游进行,选择我们的四大理由: 1、软件助手...
60位投资人竞价,“死了么”A... 记者 任晓宁 1月12日,爆火APP“死了么”创始人小郭告诉经济观察报,“死了么”APP目前估值数千...
2024最新辅助(山西麻将)辅... 您好:山西麻将这款游戏是可以开挂的,确实是有挂的,很多玩家在山西麻将这款游戏中打牌都会发现很多用户的...