天极大咖秀

登录 | 申请注册

比操作系统更难的存储文件系统,曙光存储是如何做成的?

老冀说科技 2025-01-24 阅读: 786 次

我们已经进入生成式AI时代,大模型的训练和推理需要海量的数据、巨大的算力和精准的算法,同样也需要坚实的存储。英伟达的H100显卡成本构成中,竟然有超过60%是HBM存储的成本,由此可见存储的重要性。

而在电子工业出版社的新书《第四支柱:中国存力崛起录》中,也提到:由于数据已从单一的生产资料转变为兼具生产资料与生产工具两种角色。存储作为数据载体,得以充分凸显重要性,已经成为与算力同等重要的基础设施,如果存力的发展滞后于算力,那么传统计算架构将失去竞争力。因此,存(储)力可以被称为生成式AI的“第四支柱”。

如果我们将企业级存储系统的核心进行拆分,可以大致分为介质和文件系统,两者共同协作实现企业级存储的功能。如今,中国力量正在全面崛起,像长江存储等企业已经在介质上取得了重大突破。而在文件系统方面,曙光、华为同样做到了全球领先。

下面,老冀就给大家分析一下,他们是如何做到的。

起于计算机 兴于互联网
自打有计算机的那一天,就有了存储系统,这是由计算机的冯•诺依曼结构所决定的。

早期的计算机是大型机,其存储主要采取DAS方式,也就是直接连接存储。到了20 世纪 70 年代,集中式存储系统开始被广泛使用。

当时如日中天的 SUN 公司发明了真正的NAS(Network Attached Storage,网络连接存储)存储系统,该系统通过标准的以太网协议实现了存储资源的共享。NAS 存储系统最大的特点是基于文件系统(NFS 文件系统)的共享,在存储系统端构建文件系统,客户端可以通过协议(RPC)映射到本地。由此,存储文件系统走进了存储舞台的中央。

2000年左右,随着全球互联网的大发展,原有的集中式存储已经越来越难以满足互联网巨头们的需求。

2003年,谷歌发布了大数据“三驾马车”:GFS、MapReduce、BigTable。其中,GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,却能提供企业级存储才有的容错、备份等功能。有了这样的文件系统,相当于有了一个无处不在的电脑,能够对存储在不同地方、不同介质、不同系统上的数据进行灵活调度。

GFS的发布,让存储文件系统进入了寒武纪大爆炸时代,由此诞生了大量优秀的存储文件系统,也让中国存储力量看到了机会。

五年砥砺 艰难启航
在国内存储厂商里,坚持全栈自研的厂商屈指可数,而中科曙光就是其中之一。2004年,曙光决定进入存储市场,并且将研发重点放在了存储文件系统,因为这是整个存储系统的大脑。

曙光坚定选择全栈自研,而不是基于开源软件做二次开发,原因也很简单。曙光是一家技术型公司,而且现有的开源软件并不能满足曙光客户的需求。例如,曙光当时采用的Lustre文件系统,程序缺陷比较多,特别是有一些程序缺陷解不开、绕不过,无法满足要求。

可是,从头开发一个全新的存储文件系统,难度不比开发一个操作系统或者数据库更低。业界公认,一个文件系统从第一版本发布到稳定下来的周期至少是5年。Sun公司的文件系统ZFS,由业界传奇大神Jeff Bownic带队,开发人员从最初的5人一直增加到后来的70人,从2001开始发布到2006第一版本年进入Solaris,开发历时接近5年,直到10年之后才被认为真正稳定了下来。

2009年,在跟踪技术5年之后,曙光终于决定立项。曙光总裁历军给研发团队提出了要求:一定要自研,如果三五年做不成,那就十年。他还批准了存储人才的招聘计划,计划引进20%的研发人才,而承诺今后几年投入数以亿计的资金。

幸好之前有了一定的积累。当时,中科院计算所已经开发出了实习系统LionFS,曙光研发团队在此基础上进行开发。不过,工作量仍然很大,在总量近百万行的代码中,至少有40% 要被修改或重写,这样才能达到让存储文件系统正常运转的程度。

首先要解决系统能用的问题,尤其是适配曙光超级计算机的难题。为此,研发团队把重点放在了支持 POSIX 高性能文件协议上面,并在当年成功发布了商用系统ParaStor 1.0,完成了对刚刚发布的“曙光星云”高性能计算机的适配。

再接再厉 打开局面
ParaStor 1.0的发布,对于曙光来说只是解决了“能用”的问题,而要让一个存储文件系统“好用”,还要解决两大技术问题:纠删码、分布式锁。

我们知道,任何一个分布式系统,都满足CAP定理:分布式系统无法同时确保一致性(Consistency)、可用性(Availability)和分区容忍性(Partition Tolerance)。

而为了确保这“三性”,纠删码和分布式锁这两项技术应运而生。

纠删码(Erasure Code) 本身是一种编码容错技术,最早应用于通信行业,用于解决部分数据在传输中数据位丢失的问题。它的基本原理是把传输的信号分段,加入一定的校验机制后,再让各段间发生一定的联系。这样,即使在传输过程中丢失掉部分信号,接收端仍然能通过算法把完整的信息计算出来。它可以提高 50%以上的存储利用率,并且可以保证数据的可靠性。

分布式锁则是在一些冲突场景下,把一些资源、进程甚至代码“锁”起来,更好地实现数据一致性、高并发、高性能等。

从技术的角度上看,随着纠删码和分布式锁两大功能的实现,以及早期ParaStor中那些比较幼稚、原始的代码被优化或重写,ParaStor这一系统开始逐渐完善。

2013 年,ParaStor 2.0发布,它增强了数据保护机制,从而使这一版的文件系统具备了可为用户构建数据全生命周期管理的一体化方案的能力。

ParaStor 2.0的另一个特性,就是对云和大数据的良好支持,这使其在云计算兴起的时代,驶入了快车道。

当时的ParaStor打出了“分布式并行文件系统”的旗帜,这主要得益于ParaStor以超级计算业务起家,起点比国内部分企业高——其存储容量远远超过了业界通行的最大容量,先进的并行存储架构也使其具有超强的横向扩展能力。

另外,在产品特色上,ParaStor并行文件系统的独特设计为用户数据创造了一个集中化的共享虚拟存储池,提供了全局单一的命名空间。此外,ParaStor系列产品还有专门开发的并行存储统一监控管理平台,直观易懂的图形界面方便用户管理和监控系统的软硬件资源。

正因为产品准备好了,从2013年开始,曙光存储拿下了重大的标杆项目,为“央视国际”(中央电视台官方网站)打造6PB 存储资源池。同年,曙光存储还在全国多地中标气象局、环保局的项目。此后,曙光存储的产品又先后在多个行业成功落地。

硬撼国际巨头 后来居上
如今,ParaStor已经足够强大,能够与全球最优秀的存储文件系统一较高下了。在这里,老冀就拿目前在企业市场得到广泛应用的“蓝色巨人”IBM的GPFS文件系统做个对比。

相比GPFS而言,ParaStor能更好地满足用户在以下三个方面的要求:

1.AI的要求

GPFS更适合IBM的小机时代,在单节点I/O 密集的负载中,处理器的使用可能会占用较多的处理器时间,进而影响到系统的性能。可以说,GPFS已经很难支撑AI时代下的大算力需求。

ParaStor的单节点带宽则高达150GB/s,能够为用户提供更好的使用体验,还有多集群统一管理、单集群多协议的支持、SysQos、回收站等更加贴心的功能,更适用AI等最新应用。

2.信创的要求

近些年,信创产业得到大力发展,用户更强调全链条安全可控和国产产品技术的全栈支持。作为国际大厂的IBM,很难满足这方面的要求。例如,在某数据中心项目中,GPFS不满足国产化需求,不兼容国产芯片和操作系统,用户也无法协调IBM原厂研发深度支持,无法获得文档、接口等。

而以ParaStor为代表的国产存储产品,一方面自身能够满足国产化政策要求,另一方面对国产芯片、操作系统、硬件的适配性也更高。

3.维护的要求

近年来,IBM对GPFS的研发投入日渐减少,2024年8月更是直接关闭包括存储在内的中国研发部门,这也意味着采用GPFS的中国用户将面临产品更新不及时、售后支持力度减弱等窘境。

以曙光为代表的国产存储厂商,则拥有强大的研发团队,并凭借多年纯自主研发的积累,能够做到积极响应客户需求,高效完成定制化需求,周期短、质量高。

“三心”为基 筑成功之路
从国产存储文件系统的成功,老冀看到了以曙光存储为代表的国产存储力量的“三心”:

1.决心

从一开始,曙光就知道自主研发存储文件系统这件事非常难,甚至比研发操作系统都难。但是,作为一家有理想、有追求的科技公司,曙光仍然下定决心,一定要做全栈自研,而且将这种决心从上到下,传递到了参与的每一名员工。这一点,特别值得我们赞赏!

2.匠心

决心全栈自研之后的曙光,一开始各方面的资源都比较有限,必须找到关键突破口,实施重点爆破。这个时候,曙光研发人员秉持匠心,刻苦钻研国际前沿技术,无论是首先支持 POSIX 高性能文件协议、然后加入纠删码和分布式锁这两项关键功能,再到对云、大数据和AI的良好支持,均是在关键时间点拿出了杀手锏。如果没有研发人员的匠心和持续改进,也就不可能有如此精准的产品和市场节奏。

3.恒心

最后,曙光意识到了这是一场争夺全球技术桂冠的马拉松比赛,如果没有一颗恒心,保持持久的耐力,同样也是不可能跑到终点的。为此,从2004年进入存储市场开始,曙光在存储文件系统上持续投入,不仅保证充足的研发经费,还持续加大人员的投入,一直坚持到了今天。

正是因为曙光同时具备了决心、匠心、恒心,才得以在存储文件系统如此高难度的领域打开了局面,实现了对国际巨头的超越。曙光在存储文件系统上的成功,值得所有中国企业学习和品味。

老冀说科技
作为一名至今仍在一线的科技行业记录者,老冀将带给你新鲜的时间和敏锐的点评!

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)