“过去,传统医学主要依靠个人经验,医生根据自身实践经验和尝试不同方案来做诊断与治疗;如今,精准医学的医疗过程则是依靠数据,在海量数据基础上利用大数据、AI等技术实现个性化治疗。”南方某精准医学中心计算肿瘤学博士去年向大数据在线如是说。
的确,数字化大浪潮之下,数据正在改变一切。尤其是随着数字经济的蓬勃发展,企业数字化转型逐步走向深入,数据驱动+智能技术正在重塑企业的组织、流程、运营、管理甚至决策。与前些年的CRM、ERP流程数字化相比,如今的数据驱动型应用建立在海量非结构化数据的基础之上,并且通常融合了大数据、AI、物联网、云计算等多种技术。
这些趋势不仅让海量数据存储的重要性日益突出,也推动着海量数据存储加速变革。在众多海量数据存储产品中,有海量数据之王之称的Dell PowerScale堪称排头兵,在容量、扩展性、性能、可靠性、安全性、云环境等多个方面树立业界标杆,让企业数字化和智能化转型有“数”有“据”。
正如戴尔大中华区非结构化数据存储事业部总经理刘志洪所言:“在金融、医疗、生命科学、科研、制造等领域中,非结构化数据所支撑的应用正在迅速成为关键型应用,海量存储正在成为企业数字化和智能化转型的坚实底座。”
随着云计算、大数据、AI、物联网、边缘计算等新一代数字化技术融入到千行百业的业务场景之中,不仅让现代化应用大量涌现,也着实诞生了越来越多的海量非结构化数据。IDC预测,到2025年80%的数据将是非结构化数据,非结构化数据所蕴含的价值不可低估。
现代化应用往往具有部署环境广泛、业务弹性多变、管理复杂和安全性要求极高等特征,也让海量非结构化数据的存储、管理和分析挖掘变得愈发困难,具体表现为:
数据产生和使用的环境今非昔比。过去企业的数据以结构化数据为主,主要产生在数据中心之中;如今,从边缘、核心数据中心到云都在产生大量数据,而且以种类丰富、大小多样的非结构化数据为主。Gartner数据显示,到2025年有75%的企业所生成的数据会在数据中心或云之外进行创建或处理。
应用的多样性和复杂性远超过往。大量现代化应用所产生的数据量、对于数据处理性能的需求巨大,而且管理发展与日俱增。例如,自动驾驶在模拟和验证阶段的数据量高达数百PB,对于底层数据存储的性能、容量考验极大;又如,如今融入日常生活的健康码,背后是数以亿计的小图片文件,带来了前所未有的并发性能要求和管理复杂性。
数据跨核心、边缘、云以及非结构化数据价值的不断凸显,外加上愈发严格的法律法规,外部恶意攻击与勒索频繁,使得企业的数据安全重要性前所未有。例如,在自动驾驶领域,自动驾驶训练的海量数据根据法律法规需求需要保存数十年之久;而2021年全球企业面临的勒索病毒攻击就超过6亿次,这一切让数据安全防护成为必修课。
这些趋势使得海量数据存储加速走向变革,成为数字化转型最为牢固的底座。刘志洪认为:“在数字化时代,数据的红利开始显现。如何利用好数据+智能,抓住数据的红利,是很多企业数字化转型的关键所在。DELL 凭借在海量数据存储领域二十余年的领先经验,已经成为越来越多行业用户激发数据潜能的首选。”
海量数据存储并不是新鲜产品,自二十年前集群NAS时代就有,加上像开源存储Ceph的出现,目前市场中存在着大量海量数据存储产品,可谓是良莠不齐、鱼龙混杂。但什么样的海量数据存储能够在数字化和智能化时代中堪当大任?我们可以从PowerScale这位海量数据之王的发展中一见端倪。
作为连续六年位居Gartner分布式存储领导者象限和排名第一的海量存储,PoweScale如今已经为全球用户提供超过17EB的存储容量,在22个行业中拥有大量头部客户,无论是功能性、扩展性、效率性和安全性都是业界翘楚,一直引领着海量数据存储的发展。
首先,PowerScale在产品形态上更加贴近用户需求,在卓越的横向扩展系统OneFS的基础上,从全闪存节点、混合节点到归档节点多种型号,可以满足海量数据存储各种应用和工作负载的数据存储需求,帮助用户充分释放数据红利。
“PowerScale具有高弹性和可扩展性,可以从最小11TB扩展到100PB,拥有丰富的数据协议接口,对接跨核心、边缘和云的数据源,并且兼容现有Isilon/PowerScale集群,面对任何工作负载都是易用、好用和经用。”刘志洪表示道。
其次,PowerScale产品设计上引领着海量数据存储的需求趋势。在横向扩展、安全防护等已有优势的基础上,近年来PowerScale还带来了全闪设计、软件定义等产品新趋势。
以全闪为例,如今医院的PACS系统当前疫情形势下,需要对接多台超高速、高精度的医疗设备的连续并行写入,像CT成像技术,320排探测器、动态640层带来了比以往大得多的数据量,对于性能要求极高。此外像芯片设计、自动驾驶等业务场景,PB级的数据都需要高性能处理,而PowerScale的全闪化设计无疑很好地满足各种场景的性能需求趋势。
“现在医疗影像领域已经开始融入越来越多的AI技术,相关研究已经离不开全闪存的高性能。”刘志洪补充道。
又如闪存、处理器、GPU等硬件的快速发展,让软件定义成为海量数据存储重要的产品趋势。利用软件定义的方式,不仅可以充分利用硬件高速发展的能力,让整个海量数据存储可以更加快速、灵活和高效产品迭代,并且让性能、经济性等方面得到充分利用。
第三,PowerScale一直引领着海量数据存储的技术发展方向。以大数据支持为例,第一代Hadoop大数据平台随着应用和规模的不断提升,其存算紧耦合的模式瓶颈日益突出,戴尔在2014年就首先在业界利用OneFS作为底层文件系统,实现了Hadoop计算集群的存算分离;又如,PowerScale率先支持湖仓融合,支持数据湖、数据仓库同时访问,成为越来越多用户在构建湖仓一体架构的首选。
“PowerScale二十年来一直都是业界领先的海量数据存储平台。如今,PowerScale已经沉淀出存管融合、打破边界、高效低碳、精智平台、全面防护的五大能力,帮助用户在核心、边缘和云端各种环境满足不同业务应用的复杂数据需求,真正打破了数据壁垒,帮助用户数字化转型中发掘数据价值,提升业务智能化程度,在瞬息万变的市场中保持领先。”刘志洪总结道。
经历二十余年的不断创新与打磨,PowerScale五大能力如今在医疗、生命科学、ADAS自动驾驶、EDA芯片设计制造等行业场景中得到了充分体现。
刘志洪介绍,戴尔成立了一个名为10PB俱乐部,近年来有越来越多不同行业的用户进入到俱乐部,“像能源、医疗、芯片制造等行业的用户均已经进入到该俱乐部。未来,我们希望成立100PB俱乐部。”
以芯片设计与制造为例,近年来芯片制程技术的不断突破和逼近物理极限,使得芯片设计和芯片制造两大场景会产生巨大的数据量。具体来看,芯片设计前期会产生大量小文件数据,规模通常是千万级,每个文件大小则是KB级,对于数据存储的随机IOPS性能要求极高;而进入到仿真验证阶段,则会产生大量的大文件系统,对于存储的吞吐和带宽能力要求极高;此外,芯片生产之后,还需要将设计数据、历史数据进行永久存储和归档,用于后续的新芯片设计或者质量回溯。
戴尔大中华区非结构化数据存储事业部高级系统工程师高中耀谈道:“10纳米芯片从头到尾会产生大约600TB的数据规模,如果升级到7纳米,数据量就会达到PB级别,而现在的5纳米、3纳米则对于数据存储的容量和性能有着更大的挑战。”
据悉,当前全球Top 20的芯片企业中,已经有80%采用了PowerScale。PowerScale的大规模横向扩展能力,以及全闪、混闪、归档系列产品可以帮助用户在芯片设计制造不同阶段灵活使用。“PowerScale可以让用户根据业务需求在性能、容量上进行灵活组合,并且形成单一的文件系统,更新换代无需迁移数据,前端用户使用则是完全透明。”高中耀补充道。
又如当前火爆的人工智能和机器学习应用,往往需要大量的数据采集,在这基础之上进行模型的训练和反复迭代,本质上是一个数据分析型的工作流,涉及到数据采集、清洗和训练三个典型的环境,每个环节均会诞生大量的数据。
Dell PowerScale帮助用户构建企业级的数据湖,轻松应对AI各个环境产生的海量数据;高性能的分布式全闪存型号则在性能层面满足AI的数据处理需求;PowerScale对数据湖式的多协议支持,也让其可以实现一套存储满足整个AI训练各个环节的数据处理需求;PowerScale全面的数据安全机制则为AI训练带来保障。
高中耀表示:“很多用户在构建人工智能应用时,往往注重于GPU等算力的投入,却忽视了数据存储方面的瓶颈,造成了GPU等待或者GPU现象普遍存在,而PowerScale则很好地解决了AI应用的数据挑战,真正帮助用户消除GPU等待的现象。”
当前,除了芯片设计与制造、人工智能应用外,PowerScale已经在媒体娱乐、医疗健康、生命科学、金融服务、智能制造、物联网等领域获得了大量应用。刘志洪表示:“PowerScale一直是业界领先的海量数据存储平台,并且与Google Cloud、微软Azure、Cloudera等各种生态伙伴深度合作,形成存管一体的数据湖大生态,真正为用户的数字化转型构建起坚实的基础。”
总体来看,随着企业数字化和智能化转型的深入,海量数据激增将会成为新常态,基于海量非结构化数据的业务正在加速成为核心业务,支撑这些业务的海量数据存储正在成为企业生产、运营和创新中的不可或缺的基石,而Dell PowerScale无论是技术、产品,还是行业方案、生态,都是当今海量数据存储的翘楚,未来也将迎来更加广阔的施展空间。