高性能计算(HPC)一直被认为是IT行业皇冠上的明珠,是相关厂商最高技术能力的展现。如今,随着数据密集型系统的越来越多,IO性能日益成为影响HPC整体性能的瓶颈。IO500榜单由此而生,并成为评价HPC存储能力的权威排行榜。
在前不久举办的国际超级计算大会SC21上,最新一期的IO500榜单正式亮相。在这一榜单中,华为OceanStor Pacific存储系统成功跻身三甲,其中Huawei HPDA Lab高居第二,Olympus Lab则位列第三。
由于重要性和权威性得到业界广泛认可,每届的IO500榜单也都吸引了诸多实力派存储厂商的积极参与。在这样激烈的竞争中,作为HPC存储领域新进者的华为,为何能够成功胜出呢?
我们都知道,计算、存储和网络,是数据中心的三大基础。在过去相当长的时间内,最受重视的一直是计算,相关厂商一直在不断提高计算的性能,并且实现从CPU到GPU的演变。
然而,随着数字化转型的推进,尤其是数字经济大潮的到来,数据变得越来越重要,并且成为最核心的生产资料。要充分发挥数据资产的价值,作为数据基础设施核心底座的存储,也就成为业界主流厂商新的竞争焦点。
过去的超算中心,同样存在重计算、轻存储的现象。如今数据密集型应用的增多,使得高性能数据分析(HPDA)在HPC领域的重要性日益提升,形成了计算+大数据+人工智能的技术融合。
存储能力的提升,由此成为HPC的重要性能指标。2017年11月,IO500榜单正式推出,与TOP500并列,同样在每年的高性能计算领域的顶级会议(美国SC和德国ISC大会)上发布。自此,I/O性能也成为衡量超级计算机应用效率的全球重要指标。
对数据存储的重视,甚至也改变了传统超算中心的业务模式,不再只是单纯提供算力,而是提供数据服务,充分发挥数据的价值。我国亦有专家提出,要把超算中心的数据能力上升到与计算能力同样的高度,使超算中心从算力服务时代迈向数据价值时代。
IO500如同超算界的奥运会,参赛的重量级选手很多,其中就包括各大老牌存储巨头。能够在与它们的比拼中胜出,并登上领奖台,主要得益于华为OceanStor Pacific的先进的系统架构和强大的并行文件系统。
在IO500的综合榜单和10节点榜单中,华为OceanStor Pacific都高居第二。相比之下,传统存储厂商表现不佳,而一些后起之秀则有不俗的表现。这正是由于存储架构的影响。
在华为的OceanStor存储产品线中,Pacific系列是专为海量数据场景设计的分布式存储系统。其使命是高性能计算、为虚拟化/云资源池、大数据分析、视频、内容存储/备份归档等类型应用提供多样性存储服务,帮助企业释放海量数据价值。
华为OceanStor Pacific系列采用全对称分布式架构,使得HPDA的存储系统可以轻松扩展到数千节点和EB级存储容量。同时,通过搭载自动负载均衡策略、优化IO读写的FlashLink技术等,保证了规模扩展场景下的高并发、低时延等系统性能,也满足了IO500测试对高带宽和高IOPS的均衡性要求。
IO500榜单中注明的“OceanFS”则是OceanStor Pacific所采用的文件系统。除了提供传统的NFS、SMB等NAS服务外,OceanFS还提供支持POSIX和MPI-IO接口的并行文件系统服务,后者正是OceanStor Pacific能够在IO500中胜出的关键。
此外,OceanFS所具备的DPC(分布式并行客户端)技术,则可以实现单个计算客户端连接多个存储节点,消除因存储节点配置造成的性能瓶颈,把整个存储集群的性能更充分地发挥出来。
此次参与IO500测评的两个研究机构“Huawei HPDA Lab”和“Olympus Lab”,是华为在成都研究所搭建的两套不同环境的实验室。其中,Huawei HPDA Lab专门供HPDA场景进行试验和项目测试使用,Olympus Lab则聚焦未来高新技术的研究。
值得注意的是,基于华为OceanStor Pacific构建的HPDA解决方案,并非只是局限于实验室,而是已经在诸多场景中得到商用,包括基因测序、气象海洋、超算中心、能源勘探、科研与工业创新、智能医疗、深度学习、人脸识别等数据密集型HPDA应用场景。
石油公司在进行油气勘探时,需要对地下地质结构做准确了解,因此数据采集量大、处理链路长,数据存储就成为了瓶颈。为此,中国石化石油物探技术研究院,采用华为OceanStor海量存储打造高性能HPC平台,在海量的数据中更高效地发现油藏信息,实现通过数据来找油。
身处数字化浪潮当中,像中国石化这样的企业,不仅希望自己的数据分析处理平台更加高效和经济,同样也要求必须具备高可靠性,以保证数据资产的安全。这就得益于华为OceanStor Pacific采用了Erasure Coding专利技术实现N+M数据保护,极大增强了数据的可靠性,为数据的长周期处理提供持续保障。
Erasure Coding是一种冗余保护机制,通过计算校验片的方式实现数据冗余保护。在写入数据时,其将数据切分为N个数据块,通过EC编码算法计算得到M个校验块。通过将N+M个数据块和校验块存储于不同的节点或机柜中,即使M个节点/机柜/硬盘故障,系统仍可正常读写数据,做到业务不中断、数据不丢失。
在数字经济时代,数据成为基础性资源和战略性资源,其价值需要得到更高效、更经济的释放。各类数据密集型应用,则将成为高性能计算的主流,对数据分析的要求越来越高。
在这种情况下,像IO500这样的存储性能测试,将成为很多重大HPC项目的准入标准。在国外,沙特阿美石油HPC项目、瑞典国家超算中心项目等,都要求入围厂商在IO500当中有靠前的测试结果证明。
也许在不远的将来,这样的测试结果,也将成为国内HPC项目的门槛,推动HPC更加重视数据基础设施,实现系统整体性能均衡。这不仅是中国高性能计算发展的必由之路,也将成为我国数字经济的催化剂,助力各行各业的数字化转型升级。