由滴滴系统大故障谈起：互联网大厂服务故障常见的6种原因

11月份以来，科技巨头网络故障进入高发期。

本月初，澳大利亚第二大电信公司Optus发生全国性网络中断，导致数百万客户无法使用电话和互联网服务。

双11期间，阿里云发生故障，“阿里云盘崩了”“淘宝又崩了”等话题相继登上热搜，阿里系相关产品受到影响。

11月27日晚间，滴滴又迎来大规模网络故障。有大量用户反映滴滴App无法正常使用，司机表示接不到订单。

故障发生后，滴滴先后进行了两次公开回应，表达了歉意，但没有公布故障原因。因此，引发了业界广泛猜想，提出了各种猜测和疑问。

2023年11月29日上午，滴滴又一次给出了“初步确定，这起事故的起因是底层系统软件发生故障，并非遭受攻击”的说法。不过，依然没有说明底层系统软件发生故障的原因，是服务器进水了，还是出现了软件BUG，乃至系统过载启动自我保护，都不得而知。

有几位媒体朋友和我探讨此事，探讨故障原因。在没有确切信源之前，谁也不敢妄下结论。不过接着这个话头，我以其他互联网巨头的经历举例，谈了网络故障高发背后的几条原因。

今天也分享出来，供大家参考。

　　一、边缘设备故障

第一种可能性是边缘端故障，就是终端设备受损或者相关的光缆等连接设施损坏。

几年前腾讯微信曾有过一次大规模的故障，后来查到是施工方在施工的时候把光缆切断了，再比如每次大地震过后都可能会损坏相关的通讯设施都是这种情况。

　二：人为管理漏洞

技术系统中的人为因素往往是最难以预测和防范的。以人为中心的故障，如内部矛盾、误操作或恶意行为，都可能对系统造成重大影响。

2020年微盟的事件就是一个典型的例子，其中技术人员因与公司之间的矛盾，故意损坏公司数据，给公司带来了巨大的经济损失。这种情况并不罕见，它反映了企业在人员管理、权限设置以及内部矛盾解决机制等方面可能存在的问题。

　三：免疫机制

为了保障系统的稳定和安全，现代技术架构中通常会设置各种免疫机制，如过载保护、温度控制等。但当这些免疫机制自身出现问题或被错误触发时，它们可能会成为导致服务中断的“元凶”。

大家应该都记得，曾经就有过电信网络的崩溃导致包括微信支付、QQ、唯品会等大量互联网平台故障的案例，最终发现原因是电信的一个网络机房冷却系统出现故障，整个机房温度快速的升高，触发了这种保护机制，大批的网络服务器被强制宕机下线。

四：行政手段

(该条内容分析可能涉及敏感词汇，发稿时作者进行了删除。感兴趣的朋友，请私聊作者要原稿)

五：黑客攻击

关于网络故障，最常见的是黑客攻击，黑客攻击又分很多种，除了常见的病毒、木马、蠕虫等之外，这两年又兴起了网络勒索攻击。

不法分子发现漏洞，取得了服务器的控制权或者获取用户敏感数据后，要求运营公司以比特币的形式支付动辄数百万美元的赎金，这也是较为常见的情况。

　六、系统BUG

系统bug也是常见原因，操作系统是计算机和网络设备的基础设施，如果操作系统存在bug，可能会对整个系统造成严重影响。

另外，软件在开发过程中可能存在代码错误、逻辑错误或设计缺陷。这些错误可能在特定情况下被触发，导致软件崩溃或无法正常工作。同时，系统bug可能是由于配置错误引起的。例如，管理员可能错误地配置了网络设备或服务器，导致网络故障或性能问题。

写在最后：滴滴的故障已经解决，但后续的反思复盘少不了。

一方面我们应该认识到网络安全是一个持续的过程，而不是一次性的任务。随着技术的不断发展和威胁的不断演变，我们需要不断更新和改进我们的安全措施和策略。这包括定期进行安全培训、及时更新软件和系统、开展安全审计和风险评估等。另外一方面，要多设置冗余，狡兔三窟，备份体系要随时准备好，哪怕永远用不上。

当然，像滴滴以及BAT这种大公司，因系统崩溃造成的用户损失，他们核实后肯定会妥善处理，不会让消费者为故障买单，这也是底线。