测试的主角是浪潮云海OS,其典型性表现在,完成了全球唯一面向“一云多芯”场景的SPEC Cloud基准测试,并在三种处理器节点混合部署集群测试中,相对可扩展性、平均实例配置时间等指标均达到全球领先水平,验证了云海OS在业务应用跨处理器架构场景下的高效率、高性能和高扩展能力。此次测试的意义不仅仅在于又一次彰显了浪潮云海OS的强大,更可以理解为它创建了以“一云多芯”为核心的云平台参考基准。
此次测试虽然是一个厂商的个性化行为,但是背后折射出的是云计算产业的又一次演进。“一云多芯”不仅是解决多元计算底层异构化,以及生态离散的根本性解决方案,而且也是当下及未来云平台必备的核心能力之一。
“一云多芯”是刚需
你可能早就注意到了,包括亚马逊云科技、BAT在内的国内外Top级的云服务商都纷纷推出了自研芯片。造成这一局面的最直接的驱动因素就是由新一轮AI浪潮带来的算力爆发。实际上,AI引发的算力之争还只是冰山一角,“海平面之下”隐藏更深的是多元计算对硬件架构、软件平台甚至上层应用带来的挑战。
多元计算市场的形成是从底层芯片开始的。众所周知,基于不同的芯片,能够构建出形形色色的服务器整机,在这之上还有操作系统、中间件、数据库,乃至各种各样的应用软件。这些软硬件系统无一例外要对底层芯片进行适配,当算力的种类、规模呈线性增加时,这无论对于IT厂商还是行业用户来说都是一件最头痛的事。
作为软件开发商,是不是每开发一个软件,都要去适配不同的芯片?作为用户,到底是采购一种芯片还是多种芯片?结果是左右为难,无所适从!以前,无论是私有云还是公有云,主要都是以适配一种最主流的芯片为主。但是多元计算兴起之后,适配不同的芯片不仅是技术上的选择,更是商业上的抉择。因为如果只支持一种芯片,那么用户就没有第二种选择,随之而来的风险也就不可避免。
解决底层芯片异构的问题,不同的厂商会从不同的维度、层面切入,浪潮云海选择站在更高一层,即云操作系统的层面,以“一云多芯”来破解这一棘手的问题。脱胎于“硬件重构、软件定义”,将云与底层硬件完全解耦,以一朵云适配不同的芯片,这就是“一云多芯”的本质。“对于浪潮云海来说,‘一云多芯’并不是一种高级能力,而是一种基础能力。只要购买了支持‘一云多芯’的浪潮云海OS,用户不必考虑底层用的是哪种芯片,这朵云能够从容应对上层所有的业务与应用问题。”浪潮数据云计算方案总监刘健如是说。
上述从架构和应用的角度分析了“一云多芯”的成因,下面我们要从更深层次的生态角度去剖析“一云多芯”带来的变革。
回顾IT的发展历程,在打破了小机垂直封闭的生态之后,IT生态就是分层级的,做芯片的、做整机的、做操作系统的,大家各司其职,业内基本很难见到有谁一家独大,能够从应用到底层芯片通吃。考虑到可持续发展和安全性的问题,应该没有哪个用户愿意把全部身家,孤注一掷投入到某一个当前看上去还挺好的芯片上,因为一旦芯片本身的演进出现任何问题,迁移将是用户不能承受之重。
浪潮数据董事长 张东
“所以,用户都希望有一套更合理的生态环境来提供支撑。”浪潮数据董事长张东解释说,“我们不能仅仅从技术的层面来解读‘一云多芯’,认为只要有了‘一云多芯’,就能屏蔽掉所有芯片面临的技术问题,一劳永逸。站在浪潮云海的角度,我们倡导用户在构建云时,将‘一云多芯’作为一种基本的选择思路和出发点,而不是把宝全部押在某一个厂商或某一种芯片架构之上。从芯片到服务器整机再到云操作系统,需要整个生态中每一个层级的厂商共同努力,以‘一云多芯’的机制更灵活地适配底层芯片可能的变化,即使改变发生,也能够确保做到平滑稳定的切换,不影响业务的连续性。”
归纳来看,在需求侧,大数据、人工智能、边缘计算、物联网等多样化的技术平台和业务应用对算力需求的差异越来越大,导致更多算力供给逐渐从处理器向包括GPU、DPU、FPGA等在内的各种加速器转移。在此情况下,云平台必须具备屏蔽底层硬件架构差异的能力,并能依据上层应用的特点完成资源的自适应调度和统一管理。而“一云多芯”正好可以满足用户算力多样化的需求,实现从算力的并存到算力的统一。
在供给侧,由于芯片架构的类型极大丰富,行业用户不仅面临芯片选择的难题,更要考虑各种类型、架构的芯片如何与现有IT基础架构融合的问题。“一云多芯”不仅实现了芯与云的融合,更达成了“平台+生态”的协同。
可以预见,“一云多芯”将成为未来云计算平台的刚需。
“一云多芯” 自由切换
浪潮云海是业内最早支持“一云多芯”,并且拥有丰富的行业应用落地经验的。大约从2018年开始,浪潮云海就帮助政府、金融、能源、交通等行业的数百家客户打造了“一云多芯”行业云。举例来说,某大型银行使用多种芯片服务器和浪潮云海OS,完成了核心MPP数仓产品的认证测试,并实现了大规模生产系统应用;浪潮云海还助力某省构建了国内规模最大、芯片种类最多的省级政务云平台,覆盖近2000台、三种架构处理器的服务器,并全面集成了基础软硬件、云平台、安全系统、运维管理系统、应用系统等,累计完成104个业务系统的迁移,以及4个公共应用系统的对接。
“浪潮云海打造的政务云、行业云、私有云中很多都已经是‘一云多芯’。”刘健介绍说,“通过深入实践,我们慢慢打磨‘一云多芯’平台,踩过各种各样的‘坑’,逐渐积累经验,让‘一云多芯’的价值最大程度地在行业用户那里得以释放。”
在多年实践经验的基础之上,浪潮云海归纳出了落地“一云多芯”的方法论和成功路径。浪潮数据云计算技术总监亓开元表示:“‘一云多芯’的落地需要一套完整的技术体系来支持。从浪潮云海的理解,就是由场景驱动系统设计,以应用为导向,从原来以CPU为核心转向以系统为核心,进行软硬的协同化设计,形成多元异构的融合,同时辅以软件定义技术,持续提升计算的效率和能效。同时,还要遵从分层解耦和开放标准。也就是说,从芯片加速器部件到整机,再到云操作系统、中间件,直至应用,实现全面的分层解耦。只有这样,才能消除单一技术生态的封闭性和离散性,从而在整体上形成‘一云多芯’的标准化和规范化。”
“一云多芯”的落地要经历一个由浅入深、逐层递进的过程。因此,浪潮云海提出了“三步走”的战略。
第一步,实现混合部署、统一管理、统一视图。在此阶段,主要解决“有没有”的问题。以云为入口,通过云操作系统实现异构处理器服务器的统一管理,覆盖国内外主流处理器,提供统一操作界面、操作方式及统一监控运维等,解决应用跨架构部署与协同的问题。
第二步,实现业务牵引、分层解耦、架构升级。这一阶段主要解决“好不好用”的问题,进一步实现应用的低成本跨架构切换。通过资源层、平台层和应用层的“分层解耦”设计,实现架构升级。
第三步,建立算力标准、全栈多芯,推动生态共建。“一云多芯”的最终目标是实现应用与芯片架构的彻底解耦。这需要硬件、云以及应用等产业链上下游的协同,并且完善异构架构下有效算力的量化方法,以支持应用在不同架构处理器间的等价切换。在此基础上,推动应用与云基础设施的“一云多芯”相结合,打造垂直一体化方案,实现应用层面的跨架构无感知切换。更重要的是,联合业界多方力量,推动“一云多芯”行业标准的形成。
亓开元介绍说:“我们帮助许多行业用户跨越了第一阶段,实现了‘一云多芯’在其业务中的规模化部署和应用。当前,我们已经开始了面向第二阶段的技术布局与探索,结合原生化的技术,联合中间件等厂商,实现平台层的数据同步,包括应用层的流量切分等,希望形成一些最佳实践和指导方案,帮助更多应用厂商按照‘一云多芯’的策略上云。”
“一云多芯”是个时髦词,尤其是在云基础架构厂商中提及频率更高。虽然“一云多芯”的叫法相同,但由于理解程度的不同、技术能力的差异等,造成了各厂商在落地“一云多芯”时,效果也不尽相同。
张东强调说:“从浪潮云海的角度,希望通过云,让更多不同的处理器架构芯片能够共存在一朵云中,并最终实现上层业务在不同的处理器架构之间低成本切换或者说自由切换。这也应该是整个业界共同努力的方向。”
浪潮云海希望更多厂商能够投身于“一云多芯”的大潮中,无论是在产品研发阶段,还是在云的建设过程中,都能真正从“一云多芯”的角度思考问题,最终构建出相关的标准规范,推动生态的建设与繁荣。
左手生态 右手标准
“一云多芯”的落地,虽然在技术上还有很多问题要突破,但从更长远发展的角度来看,带动整个上层生态的参与是十分必要且重要的。举例来说,现在数据库基本都是跑在同一种芯片架构上的。浪潮云海现在想做的一件事是,推动分布式集群数据库的读和写“分离”,分别运行在不同架构的芯片上。浪潮云海正与瀚高等数据库厂商联合攻关,解决生态方面的一些问题。
另外,前文已反复提到的标准问题,也是影响“一云多芯”长远发展的一个关键因素。当产业发展真正进入到第三阶段时,人们不会再关心底层的硬件问题,那么作为重要驱动力的标准问题就会进一步凸显出来。因此,浪潮云海一直在大力推动算力标准化。算力作为一种标准化的服务,与底层的软硬件无关,可以是在容器之上,也可以通过API交付。在这个阶段,人们的关注点将完全从底层移至上边的业务层。所以,中间肯定需要一系列的标准来规范这个生态。目前,国内已有相关机构在推动“一云多芯”标准的编制。算力标准化值得期待!
上云用数赋智,牵出多样化的应用需求,进而催生出多样化的算力。这并非是中国“特色”,而是一个全球化的趋势。只不过在当前国内大的产业链重构的背景下,“一云多芯”的讨论更具必要性和实际价值。
“我们和一些重要客户进行过沟通,他们谈到一个关键问题,就是任何时候业务不能中断。因此,在多芯片平台上进行自由无感切换是‘刚需’,不能回避。今天,很多用户都已经认同了‘一云多芯’的想法。”张东指出,“随着IT的不断演进,只要有多处理器需求的环境,就会有‘一云多芯’的需求。这一市场潜力巨大。”