11月份以来,科技巨头网络故障进入高发期。
本月初,澳大利亚第二大电信公司Optus发生全国性网络中断,导致数百万客户无法使用电话和互联网服务。
双11期间,阿里云发生故障,“阿里云盘崩了”“淘宝又崩了”等话题相继登上热搜,阿里系相关产品受到影响。
11月27日晚间,滴滴又迎来大规模网络故障。有大量用户反映滴滴App无法正常使用,司机表示接不到订单。
故障发生后,滴滴先后进行了两次公开回应,表达了歉意,但没有公布故障原因。因此,引发了业界广泛猜想,提出了各种猜测和疑问。
2023年11月29日上午,滴滴又一次给出了“初步确定,这起事故的起因是底层系统软件发生故障,并非遭受攻击”的说法。不过,依然没有说明底层系统软件发生故障的原因,是服务器进水了,还是出现了软件BUG,乃至系统过载启动自我保护,都不得而知。
有几位媒体朋友和我探讨此事,探讨故障原因。在没有确切信源之前,谁也不敢妄下结论。不过接着这个话头,我以其他互联网巨头的经历举例,谈了网络故障高发背后的几条原因。
今天也分享出来,供大家参考。
一、边缘设备故障
第一种可能性是边缘端故障,就是终端设备受损或者相关的光缆等连接设施损坏。
几年前腾讯微信曾有过一次大规模的故障,后来查到是施工方在施工的时候把光缆切断了,再比如每次大地震过后都可能会损坏相关的通讯设施都是这种情况。
二:人为管理漏洞
技术系统中的人为因素往往是最难以预测和防范的。以人为中心的故障,如内部矛盾、误操作或恶意行为,都可能对系统造成重大影响。
2020年微盟的事件就是一个典型的例子,其中技术人员因与公司之间的矛盾,故意损坏公司数据,给公司带来了巨大的经济损失。这种情况并不罕见,它反映了企业在人员管理、权限设置以及内部矛盾解决机制等方面可能存在的问题。
三:免疫机制
为了保障系统的稳定和安全,现代技术架构中通常会设置各种免疫机制,如过载保护、温度控制等。但当这些免疫机制自身出现问题或被错误触发时,它们可能会成为导致服务中断的“元凶”。
大家应该都记得,曾经就有过电信网络的崩溃导致包括微信支付、QQ、唯品会等大量互联网平台故障的案例,最终发现原因是电信的一个网络机房冷却系统出现故障,整个机房温度快速的升高,触发了这种保护机制,大批的网络服务器被强制宕机下线。
四:行政手段
(该条内容分析可能涉及敏感词汇,发稿时作者进行了删除。感兴趣的朋友,请私聊作者要原稿)
五:黑客攻击
关于网络故障,最常见的是黑客攻击,黑客攻击又分很多种,除了常见的病毒、木马、蠕虫等之外,这两年又兴起了网络勒索攻击。
不法分子发现漏洞,取得了服务器的控制权或者获取用户敏感数据后,要求运营公司以比特币的形式支付动辄数百万美元的赎金,这也是较为常见的情况。
六、系统BUG
系统bug也是常见原因,操作系统是计算机和网络设备的基础设施,如果操作系统存在bug,可能会对整个系统造成严重影响。
另外,软件在开发过程中可能存在代码错误、逻辑错误或设计缺陷。这些错误可能在特定情况下被触发,导致软件崩溃或无法正常工作。同时,系统bug可能是由于配置错误引起的。例如,管理员可能错误地配置了网络设备或服务器,导致网络故障或性能问题。
写在最后:滴滴的故障已经解决,但后续的反思复盘少不了。
一方面我们应该认识到网络安全是一个持续的过程,而不是一次性的任务。随着技术的不断发展和威胁的不断演变,我们需要不断更新和改进我们的安全措施和策略。这包括定期进行安全培训、及时更新软件和系统、开展安全审计和风险评估等。另外一方面,要多设置冗余,狡兔三窟,备份体系要随时准备好,哪怕永远用不上。
当然,像滴滴以及BAT这种大公司,因系统崩溃造成的用户损失,他们核实后肯定会妥善处理,不会让消费者为故障买单,这也是底线。