近年来,数据存储市场“最靓的仔”无疑就是分布式存储。
大模型火了之后,围绕Chat的应用也越来越多,通过AI生成图片、报表、音视频的应用比比皆是。众所周知,要想训练出一个有学习能力的、可理解的、响应迅速的大模型应用,必经之路是给算法模型“投喂”大量的文本、图像、音视频数据。
面对大量新兴应用场景中爆增的数据,既想“存的下”,还要“读得快”,如果不差钱的话,显然购买更多的存储设备、叠加容量是最省心的选择。但这种方法治标不治本,性能线性提升始终受到机头限制,往往最后让企业“不堪重负”的,是高昂的设备成本和运维成本。
正因如此,分布式存储凭借在性能、性价比等方面的持续突破,终于有机会“大展身手”。并迅速在AI、芯片设计、PACS影像、多媒体编辑等高精尖领域渐当大任,摆脱了"只能做第二存储"的困境。
在深信服近期发布的EDS 501高性能版本中,我们既看到了“最靓的仔”——分布式存储绝非花架子,凭借自研的技术破除性能瓶颈,也看到了一个内外兼修的“硬汉”在高精尖领域中“大展拳脚”,表现出卓越的性能和稳定性。
为什么分布式存储能在越来越多高精尖领域中脱颖而出、堪当大任?
其一、随着云计算技术与理念走向普及,以及数字化转型的深入,基础设施层面加快分布式相关技术的部署已经成为大势所趋。
例如,《金融科技发展规划(2022—2025年)》就明确要求金融机构建设分布式架构的先进基础设施,加速核心业务应用向分布式基础设施的迁移与部署。
此外,像运营商、制造业、政务等行业都在进行核心业务系统的分布式架构改造与迁移,这无疑让分布式存储今后有机会支撑起更多核心业务系统。
其二、需要主存储支撑的关键业务场景,近年来也在发生显著变化。
《分布式存储发展白皮书》认为,分布式存储当前适用的九大典型应用场景包括HPC、大数据分析、AI、医疗影像等,这些场景里存在着大量以音视频、图片、文档等非结构化数据为主的海量小文件,要想充分挖掘数据中蕴含的巨大价值,亟需一个高性能存储系统来支撑。
其三、分布式存储的崛起最为关键的原因,还是技术上的持续突破。
过去,开源Ceph软件对于分布式存储的普及和推广功不可没;但落后的技术栈、羸弱的性能表现,使得Ceph很难在诸多核心业务场景中取得突破。
如今,像深信服等厂商自研分布式存储系统,技术栈更加先进,加上软硬件结合与适配,在性能、可靠性等方面出类拔萃,胜任高精尖领域的各种存储需求。
做分布式存储容易,但做好高性能的分布式存储很难。
这就是为什么分布式存储市场虽然近年来一直保持着高速增长,但市场上的产品、解决方案鱼龙混杂,不少产品性能、可靠性等方面难以令人满意。
可以说,随着闪存介质成本的不断下降,以及像NVMe、PCI-E等协议的快速发展,分布式存储将加速迎来系统架构、软件堆栈和关键技术的一次全面变革:海量多样性数据应用,推动分布式存储面向混合工作负载、多协议互通、解耦式的架构演进、HPC/HPDA、AI等应用对于分布式存储超高性能提出更高要求……
以深信服分布式存储EDS 501高性能版本为例,其正是分布式存储走向全面变革大趋势的一款代表性产品。它在整体架构、技术堆栈以及核心技术的突破,成为了高精尖领域中的一把性能利器,让企业在数字化转型中全速前进。
首先是在架构层面,不同于开源Ceph的系统架构,深信服EDS 501高性能版本采用了清晰分层、解耦协同的架构,Persistence层具备稳定可靠、空间高效、扩展性强等特点;Index层则实现灵活高效的逻辑映射,打造极致低时延;Service层则具备弹性可伸缩、海量的元数据能力;Access层则具备开放兼容、轻量级的协议架构。
架构的领先性,使得深信服EDS 501高性能版本承载用户的核心数据生产业务,在激活海量小文件等非结构化数据产能的同时,做到“性能”和“容量”兼得。
其次,深信服EDS 501高性能版本自主研发的凤凰分布式高性能文件系统,在软件堆栈层面更具先进性。支持混合IO负载、兼具大小文件能力,对元数据高并发、小文件密集型、大文件高吞吐和混合负载四种场景有着极好的支撑;同时,凤凰分布式高性能文件系统实现软件解锁单机瓶颈,兼具卓越性能与弹性扩展。
第三,深信服EDS 501高性能版本在分布式存储的核心技术上取得突破,巨量元数据能力、全局IO动态整合、自适应三级缓存和协议增强支持等四大自研创新技术,让分布式存储的性能表现彻底脱胎换骨。
例如,巨量元数据能力在百亿规模文件场景下也能做到存储性能稳定一致,内存缓存元数据的规模提升7倍,在最大化利用系统资源的同时,充分发挥各节点的计算性能;全局IO动态整合技术则释放机械盘顺序写的性能优势,业务写IO可在NVMe SSD组成的大性能层进行智能排序整理后写入容量层,解决小文件写放大导致的空间浪费问题,提升混合配置下的数据回刷速度;自适应三级缓存技术则通过客户端内存—存储节点内存—NVMe SSD缩短数据路径,将数据时延降至us级;协议增强支持则采用更精密的协议设计,进一步降低协议对性能的额外开销,缩短时延和提升性能。
《分布式存储发展白皮书》认为,分布式存储市场正在高速发展,未来具备软硬件一体化能力的厂商和产品会在市场更具优势。深信服EDS利用性能SSD 与容量 HDD 的独立扩展,适应复杂的场景配置,最大限度地发挥裸金属服务器性能的同时,通过软件中立来解锁厂商绑定,不仅减少硬件成本(如避免 SSD 的不合理溢价),还能降低运维保护费用,从整体上降低了总拥有成本。
因此,软硬一体化得以实现端到端的优化,让分布式存储的性能、扩展性和可靠性发挥到极致。
无疑,深信服EDS 501高性能版本已经为市场树立了一个绝佳的标杆。
不可否认,闪存介质成本的持续下降,让分布式存储的性能提升变得不再是一件高门槛的事情,但要做到真正的高性能表现,分布式存储还需要在真实场景中经受考验。
事实上,近年来市场中已经有很多分布式存储产品,在一些性能测试的表现是一顿操作猛如虎,但到真实场景中却是“仔细一看原地杵”。
究其原因,一方面是测试机构的测试方法与实际业务场景相差甚远,尤其是考虑到当下新应用、新场景涌现的情况下,一些测试方法并不能真实反应出分布式存储的性能;另一方面,闪存对于性能的提升,使得一些分布式存储产品满足于“虚荣”的高性能,距离真实场景的高性能存储需求尚有差距。
显然,作为分布式存储领域耕耘多年的厂商,深信服深知分布式存储必须与真实场景的性能需求紧密结合。
例如在医学影像领域,PACS系统等应用对接的各种影像设备都在朝着超高速、高精度方向发展。最典型的就是CT成像技术,320排探测器、动态640层带来了比以往大得多的数据量。此外,PACS系统对接多台医疗设备经常是多台设备同时连续写入,而医生在阅片时又是序列读取,这就使得PACS系统逐渐呈现出连续写、序列读的性能特征。
对此,深信服EDS 501高性能版本在千兆PACS环境阅片测试场景下,能实现秒级加载450幅影像。在上海市肺科医院的PACS影像阅片真实场景,阅片端12秒即可完全加载患者700~800张CT影像,小文件性能表现极为出色。
又如,AI、芯片制造、工业设计等领域融合了HPC、大数据和AI技术的应用层出不穷,对于分布式存储的性能要求更为苛刻。在这种“数据密集型”应用承载中,深信服EDS 501高性能版本稳定承载深南电路超过20亿的AI检测文件,实现了EDA前后仿真效率提升40%,性能表现持续刷新预期。
此外,在自然资源&实景三维、多媒体编辑&娱乐等场景中,深信服EDS 501高性能版本也是经受住了各种性能挑战。
截至目前,深信服EDS在AI、医疗医院&生物科技、多媒体编辑&娱乐、自然资源&实景三维、芯片&工业设计等领域累计服务了2万个用户、 完成了35000 小时的稳定交付,承载的PB级项目超过200个。
综合观察,在市场和需求告诉增长的大趋势下,分布式存储迎来了其黄金时代。与此同时,分布式存储的一场技术、产品变革也在发生,架构、技术堆栈以及软硬协同将重塑分布式存储的产品。深信服EDS 501高性能版本在性能等方面的出色表现,无疑为整个市场树立了标杆。面向未来,随着千行百业数字化转型的深入,分布式存储数字底座基石的作用将会愈发突出,也必然会在更多业务场景中发挥关键作用。