数字宇宙大爆炸,这个最初源于IDC的描述今天将成为现实。据预测,到2030年,全球每年产生的数据总量将达到惊人的1YB。从人们津津乐道的PB数据时代飞跃到YB数据时代,不仅仅是数据量的几何级数倍增,由此带来的新应用、新负载,必将引发架构层面的颠覆与创新。
面向混合负载构建新兴业务最佳的数据底座,成为迎接YB数据时代到来的新挑战。
研究“新需求”加速转型
在这个“数据驱动一切”的时代,数据的计算、存储、应用与管理成了企业业务创新发展的强大引擎。高性能计算(HPC)、人工智能(AI)、大数据……这些以海量数据为基础的新兴数据服务层出不穷,将加速推动企业研发创新,实现智能化决策,以及高效的海量数据备份与归档等。
时至今日,HPC不仅是国家综合竞争力的一种体现,更给人们的生产生活带来了翻天覆地的变化,基因测序、航空航天、天气预报乃至汽车制造都广泛应用了HPC技术,实现了性能、效率的大幅度提升。上个世纪90年代,汇全球之力进行人类基因排序花费了10年之久,今天对新冠肺炎病毒基因进行测序与分析则只需一天左右。在这一变化的背后,HPC功不可没。如今,HPC正走向以“HPC+BigData+AI”为基础的HPDA(高性能数据分析)时代。从计算密集型的HPC到数据密集型的HPDA,不仅数据量迅猛增长、负载类型从单一负载转变为混合负载,应用类型也更加复杂。因此,用户需要具备大容量,支持混合IO模型,以及多协议访问的新型存储架构和解决方案。
毋庸置疑,以新的技术手段推动科研创新已经成为新常态。而以智能推动大数据分析进入实时处理时代,实现历史数据与流数据的融合处理也是大势所趋,这已经在各行各业得到了证明。比如,以智慧金融为代表的企业智能决策分析就是建立在实时化的基础之上,其核心就是要提升数据融合分析的时效性。《金融科技发展规划(2022-2025年》明确提出,要全面推进人工智能技术在金融领域的深化应用,实现金融服务全生命周期智能化。面对海量的结构化、非结构化数据,金融行业用户迫切需要构建支持多样化数据分析引擎的湖仓一体化架构,在一套存储和体系架构上,共享数据访问,统一数据管理,减少数据迁移。由此可见,满足智慧化业务创新需求,能够实现存储共享、支持多种数据格式归一的新型存储架构不可或缺。
在YB数据时代,音视频、票据影像、智慧交通等将成为数据最重要的来源。这些数据不仅增长快,而且要长久保存,满足随时随地在线服务的需要,有时还要实现跨域的访问查询。以智慧交通系统建设为例,它不仅需要建设一个后台的大数据中心,更要满足多样化设备感知、人工智能信控优化、基于视频深度挖掘的大数据分析、移动应用等多方面的要求。不断积累的数据形成了一个庞大的数据资源池,它要不间断地对外提供数据服务,就必须具备高弹性和高可用性。因此,大容量、能够实现跨地域容灾,确保数据随时可用就成了对存储架构最基本的要求。
综上所述,海量、多样性的数据驱动着企业业务创新,同时也推动着行业与社会的全面进步。作为这背后重要的支撑力,存储架构的演进与变革就成了必然。
践行“新架构”三大创新
数据量的增加、工作负载的多样化,使得应用的不确定性进一步增强,这对存储架构的设计提出了新的挑战。由HPC、大数据分析、人工智能等新技术激发的新场景、新应用,归纳其特征,可以用“Hybrid”这个词来描述:多种数据类型交织,结构化、非结构化数据混杂;不同应用负载对性能的要求千差万别,高带宽、高IOPS、高OPS并存,需要建立混合性能模型与之对应;从数据采集、导入、预处理、训练、仿真到推理,整个过程可能是1份数据在流转,但经过不同的处理环节,可能会有多个引擎调用,因此必须满足不同协议访问的需求;在同一套系统内实现流和时序数据的处理和预聚合操作,可以减少数据跨系统间的迁移,降低冗余存储和加载时间,提高处理效率。
面向混合负载,华为OceanStor Pacific系列分布式存储通过架构的创新,以确定的产品解决方案应对业务的不确定性,驱动业务的创新升级。华为OceanStor Pacific自诞生至今,其存储实力得到了业界的广泛认可,曾荣获2022年Gartner“客户之选”,以及Interop存储&服务器产品类金奖等。华为OceanStor Pacific与时俱进,面向“多样化负载、数据融合分析、跨域数据服务”的新需求,实现了存储架构层面的“三大创新”,继续引领YB数据时代的存储创新。
架构创新一:SmartBalance全对称分布式架构,化解多样化负载带来的压力
华为OceanStor Pacific所采用的SmartBalance全均衡系统设计“两手抓、两手硬”,一方面,通过大小IO自适应数据流实现对带宽、IOPS和OPS混合负载的性能全面优化;另一方面,借助融合非结构化数据索引,实现原生多协议的无损互通。华为OceanStor Pacific用一套存储即可支撑HPC、大数据分析、AI等混合负载,大幅提升数据分析的效率。
架构创新二:下一代存算分离架构以极致的TCO,大幅提升数据分析的时效性
从存算一体,成本和效率不可兼得,到存算分离,实现以成本优化为核心的灵活扩展,迈出了存储架构创新的一大步。华为OceanStor Pacific践行的下一代存算分离,将以数据为中心,快速走向实时分析。华为OceanStor Pacific支持开放数据格式、多样接口(包括S3、HDFS、Streaming、K-V等),多样化数据分析引擎即插即用;采用元数据网关,可以实现统一命名空间智能纳管;支持高性能读写,实现数据加速。许多行业用户之所以青睐华为OceanStor Pacific,是因为它率先在存储上支持湖仓融合的新兴数据格式,一份数据可支持数据湖、数据仓库同时访问,并进一步向湖仓一体、一湖多云和实时分析演进。
架构创新三:成熟的多数据中心多活容灾架构,提供随时随地的数据读写服务
华为OceanStor Pacific提供了面向EB级数据的持久化存储,基于多个存储站点形成了跨地域的多活容灾能力,不仅整体资源利用率更高,更可确保随时随地的数据写入与访问服务,节点故障的切换时间为秒级,业务可用性达到“6个9”。
新架构适配新需求,华为OceanStor Pacific通过架构级的创新,为简化混合负载的存储与应用另辟蹊径。
树立“新应用”行业标杆
实践是检验新技术、新架构是否能用、好用的唯一标准。在科研创新、企业智能决策、资源池数据服务等需求相对集中、处理相对复杂的主流应用领域,华为OceanStor Pacific到底表现如何呢?
典型应用场景一:提升企业科研创新效率
如今,越来越多的行业用户希望借助HPDA提升研发和创新效率,尤其是基因测序、自动驾驶、AR/VR、3D视频等领域需求非常迫切。华为OceanStor Pacific助力华西医院,通过高性能数据分析将人类全基因组分析首次推进到分钟级时代。基因测序属于一种典型的混合负载,既有大文件直通读写的需求,也有小文件聚合读写的需要。华为OceanStor Pacific通过一套存储同时支持高带宽和高IOPS,满足了客户高效处理混合负载的需求;另外,华为OceanStor Pacific还凭借多协议互通优势,对基因组数据分析各个环节作业流程的融合访问实现了有针对性的优化,最终将30X人类WGS胚系变异分析时间缩短至7分钟。
典型应用场景二:加速实现企业智能决策
毫无疑问,人工智能、大数据已经成了提升企业运营效率的“金钥匙”,特别是在金融风控、精准营销等方面有了大量成功应用。以某知名银行为例,它以华为OceanStor Pacific提供的湖仓数据融合存储为底座,基于计算存储分离,实现了数据格式归一;存储系统中“SSD+内存级大容量高速缓存”的配置,确保了千亿数据查询秒级响应;主流湖仓组件与智能纳管相结合,不仅能够实现全量数据的高效处理,还具有实时数据直接更新与实时报表功能,为银行打造了实时看板,支撑分钟级的高效精准决策。
典型应用场景三:海量数据备份与归档,支撑安全的资源池数据服务
从海量的视频、图片以及企业IT文件中挖掘新价值是企业努力的目标,多活数据中心为此奠定了坚实的基础。某大型运营商视频网站为充分保障其海量互联网业务24x7小时连续运营,基于华为OceanStor Pacific构建了三站点多活容灾,其优势在于:为视频访问应用提供了容量为EB级,并可按需进行弹性扩展的数据池;基于三站点多活容灾架构,即使任一站点失效,业务也不会中断,确保7x24小时业务连续性;将整体资源的利用率提升了69%,同时有效降低了TCO,为海量数据的备份与归档做出了成功示范。
海量分布式非结构化数据的存储将是未来数据存储的主攻方向之一。华为OceanStor Pacific通过“SmartBalance全对称分布式架构、存算分离架构、多数据中心多活容灾架构”三大架构级创新,充分满足了YB数据时代多样化负载的应用需求,为企业的数字化转型构筑了坚实而又灵活的数据底座,定义了存储的新范式。