对于承担数据中心运维重任的人来说,睡安稳觉是个奢侈的事情。
越是在别人过节的时候,心理压力越是大——类似机房临时停电、光缆被挖断的故障时常发生,甚至系统死机、存储溢满这样奇怪的事情,也在一些巨头级别的云服务商身上出现。
作为全球最大的云服务商,亚马逊云服务(AWS)为全球数百万企业的业务运行提供不间断的支持,其面临的运维压力可想而知。那么,AWS是如何来构建和运行其云基础设施的呢?
在亚马逊re:Invent 2020期间,AWS全球基础架构和客户支持资深副总裁Peter DeSantis,分享了很多AWS的经验和心得。
从他的介绍中我们可以发现,创新这一DNA贯穿始终,通过自主研发、生态合作、业务模式等方面的技术创新,建立起一个稳定可靠、高可用、高性价比的云基础设施,进而为客户的业务创新提供动力。
随着数字化转型的深入,越来越多的传统企业开始将应用向云端迁移,而且从外围辅助型应用,逐步深入到生产和决策等核心业务系统。这些企业并不关心云服务商的底层技术到底是什么,而是希望这些技术能够为自己的应用和业务提供高可靠、高性价比的支持。
在亚马逊,有一个重要的原则叫做“技术创新,不是商业利益驱动,而是用户需求驱动”。在AWS的数据中心基础设施方面,我们能够看到这一准则的有效应用。
随着云计算市场的快速增长,云服务厂商的业务规模也迅速成长。目前,AWS已经成为全球第五大企业IT厂商,年营收达到460亿美元。近年来,AWS还加强了核心部件方面的研发,推出了自己的CPU、主板、网络等产品。
AWS在选择自主研发对象时,是把用户需求作为首要考虑因素,而不是“为创新而创新”。仅以芯片为例,AWS新近的两个明星产品AWS Graviton2和AWS Inferentia,都是在为用户提供更多的选择,尤其是更高性价比的选择。
原有的x86处理器,在Web网站等应用场景中,很多处理能力其实是被浪费了,改用基于ARM的Graviton处理器,则可以节省40%的成本。而采用Graviton2的M6g实例,与采用至强处理器的M5实例相比,性价比的提升也能够达到40%。
在机器学习中,推理计算占到了绝大部分的成本。AWS自行推出的Inferentia,其推理计算成本只有GPU的一半。用于训练计算的芯片AWS Trainium也即将推出。
在异构计算需求日益高涨的今天,以用户需求为驱动的技术创新,是云服务商的必然之选,目的是要让用户充分享受到云服务所带来的便利和性价比,进而为自身的数字化转型奠定基础。
数据中心基础设施的产品范围很广,任何一家企业都不可能完全依靠自身的力量来实现业务全覆盖。AWS同样如此,尽管其具备了很强的技术创新能力,但仍建立起广泛的生态系统,在与各大厂商进行业务合作的基础上,进行自主研发。
这一方面能够实现对关键部件的自主可控,提高整个数据中心和云服务的可靠性,另一方面也能够为客户带来丰富的产品组合,提供更高性价比的服务。
我们都知道供电系统对于数据中心的重要性,一旦出现市电中断,就需要迅速切换到UPS和自备发电机上,以保证服务的连续不间断运行。数据中心的供电系统,有专门的电源厂商来提供,其硬件产品经历了长时间的市场检验,成熟可靠,AWS并未自己研发。
然而,对于供电系统的控制器软件,AWS却是自己开发的。Peter解释说,越简单的系统,才越可靠,电源厂商的软件中包括很多AWS并不需要的内容,容易出现问题,导致可靠性降低。AWS自己写的嵌入式控制软件,在去除不必要功能的同时,可以按照自己的速度来更新迭代,并且对所有区域、不同供应商提供的设备,实现统一控制。
这种在生态合作基础上的自主研发,可以用最小的成本实现“自主可控”。在为客户带来99.99997%可靠性的同时,AWS自身也保持了良好的赢利水平,实现了可持续性的成长。
全球化,是当今社会不可逆转的大趋势。当下,各大云服务商都在加强全球化业务布局,国内云服务商也不例外。不过,在全球化布局方面,AWS仍是绝对的领先者。这不仅表现在其全球22个区域的广泛覆盖,还表现在其独创了可用区模式。
国内企业常说“两地三中心”,即在两个城市建设三个数据中心:本地的两个数据中心可以双活运行,以保证业务不间断;异地的数据中心则用于灾备,一旦本地数据中心出现问题,可以用来恢复数据。
AWS则创造了可用区的概念,其每个提供服务的区域,通常包括2-4个离得比较近的可用区,可用区总数达到77个。
值得注意的是,可用区并不是简单的两个不同数据中心,其选址既要足够近,又要足够远——近到能够满足低时延业务的需要,远到不会因为同样的灾害而导致两个可用区同时受损。
火灾、洪水、龙卷风,甚至人为灾害,都会对数据中心造成破坏,类似的事故已经多次发生。那些对于可靠性有更高要求的企业,通过把应用部署在不同的可用区上,实现了响应速度和安全可靠之间的完美平衡。当然,这对于AWS而言,意味着更多成本的付出和更高难度的运维。
以上,我们分享了AWS在数据中心基础设施方面的三个经验。这些经验,对于其他数据中心的运营者来说,仅供参考。
可以明确的是,数据中心稳定可靠的运维,并不是某几个环节、一时努力的结果,而是长期付出、一个个小小努力不断累加的成果。
目前,云服务市场规模只占整体企业IT市场的4%,未来成长空间巨大,也意味着云服务领域的创新空间巨大,需要我们不断地探索前行……