天极大咖秀

登录 | 申请注册

对象存储界的“百变星君”来了,非结构化数据存储还是事儿吗?

郭涛 2021-04-29 阅读: 6,822 次

全世界80%的数据是非结构化的!(潜台词:非结构化数据非常重要)

非结构化数据的增长非常迅速。IDC预测,截止2023年,全球文件和对象数据容量增长3倍。(潜台词:非结构化数据的存储将是个大难题,但同时非结构化数据又是一座亟待挖掘的金矿)

其实,对于非结构化数据我们已经习以为常,文件、图片、音视频,以及来自社交媒体、IoT的海量数据都属于非结构化数据。但是就像“不识庐山真面目,只缘身在此山中”所描述的那样,当我们真的陷入非结构化数据的海洋之中,你对非结构化数据的了解真的成竹在胸吗?你真的能够洞察非结构化数据中蕴藏的价值吗?你对非结构化数据的存储真的那么有把握,能够做到快速、高效和低成本吗?

对于非结构化数据,以及非结构化数据的存储、应用和进一步挖掘都还在路上!

你真的了解非结构化数据吗?

虽然非结构化数据的数量庞大,但给人的感觉是价值密度低,所以以前人们将更多的精力放在存储和优化与交易直接相关的块数据上。但其实与规整的数据库中的数据相比,五花八门的非结构化数据的存储、分析、挖掘和洞察其实更难,它就像是隐藏在海平面以下的巨大的冰山。

非结构化数据无处不在,归纳起来,主要来自三个方面:一是企业IT部门管理的数据,包括文件共享、主目录、文件档案库,以及视频监控数据等;二是行业应用数据,比如视频数据、生命科学中的基因测序分析,以及石油、能源、气象、地震等领域用到的数据等;三是来自新兴业务领域的数据,包括云计算、大数据、人工智能、IoT、虚拟现实、区块链等。

随着“大数据”这一概念被提出并且得到越来越多人的认可,非结构化数据的价值也得到了进一步彰显。拥有大数据和具有大数据处理分析能力的公司,将在数字化时代占得先机成了行业共识。“非结构化数据是一座金矿,但是如何从中挖掘出金子,却存在诸多挑战。”戴尔科技集团大中华区非结构化数据存储事业部技术总监胡渊汶指出,在非结构化数据的存储和使用上主要有以下两大障碍。

EX900_看图王

第一,快速增长的非结构化数据量超乎人们的想象,而且越来越多的用户倾向于不随便删除数据,这就给数据的长期保留,以及数据价值的进一步挖掘提出了新的更高的要求。更突出的一个矛盾还在于,在存储压力逐步增加的同时,企业的IT预算并没有随之大幅增加,如何在严格控制成本的前提下,更好地处理非结构化数据成了一个棘手的问题。

第二,应用现代化带来的挑战。很多用户的应用开发和部署逐渐走向云原生。IDC预测,到2022年,90%新开发的应用都将是云原生的,云原生将成为市场主流。这就意味着企业的存储技术架构必须与时俱进,满足应用现代化和云原生的要求。随着越来越多的企业采用新的应用架构、微服务、容器等技术,传统的存储解决方案和数据库已无法满足新应用架构对简易性、灵活性等的要求。

二十年、三代,成熟稳定的保证

在“大数据”的概念出现前,企业存储数据通常采用简单的“二分法”,即块数据采用SAN,而文件数据采用NAS,清晰明了。但是随着数据量和数据类型的增加,特别是各种新的应用层出不穷,“二分法”这种粗放式的数据存储模式显然已经不再适用。对象存储应运而生。

现在一谈到对象存储,很多人首先会想到大型互联网企业和云服务商,因为它们是对象存储的大力倡导者和忠实拥趸,对象存储的部署非常普遍,而且应用规模通常比较大。但你可能不太了解,在企业级对象存储领域还有一个骨灰级的玩家——Dell EMC。

戴尔科技集团现在的对象存储主打产品——Dell EMC Elastic Cloud Storage (ECS) 经过了二十多年、三代产品的打磨和持续演进。

历史_看图王
早在2000年,当时的EMC公司收购了一家对象存储领域的初创公司FilePool,在对其产品进行改造和增强后,于2001年推出首款划时代的产品——CENTERA。CENTERA采用了自主的专用API\SDK和单一命名空间。CENTERA一经推出便受到市场的热捧。尤其是在“安然事件”曝出后,美国国会和政府加速通过了《萨班斯—奥克斯利法案》,而CENTERA是符合该法案的解决方案,因此赢得了大批上市公司的青睐。

2009年,在对CENTERA进行改造,增加了大量新功能后,第二代对象存储ATMOS横空出世。虽然AWS在2006年已经发布了S3,但那时候还没有成为市场主流。ATMOS采用RESTful API,兼容S3,还支持数据可读写,引入了多站点、多租户等众多功能,成为许多运营商提供云计算服务的首选。

2014年,对象存储市场加速发展,呈现出新的格局,当时S3已经成了事实上的对象存储标准。ATMOS也与时俱进,进化到第三代对象存储ECS,其特性、功能和数据服务能力持续提升。

“ECS并不是一个新产品,而是拥有多年的技术积累和突破。”胡渊汶表示,“ECS既能以纯软件的方式部署,也有软硬件一体机的模式,在国外还有运营商基于ECS软件在数据中心搭建一套对象存储,为用户提供S3云服务。”

ECS具备完备的功能,在性能、可靠性、弹性、灵活性,以及数据保护、管理和服务能力等方面优势明显。特别需要指出的是,ECS可支持数据湖,一份数据同时服务多个应用,减少数据拷贝和数据复制的成本,还可支持直接数据分析,无需NAS网关;具有Box-carting归并功能,显著提高小对象的磁盘利用率和性能;具备元数据检索和搜索功能;SSD元数据加速,显著提升系统整体性能;ECS具有独特的故障恢复机制,对于节点和磁盘故障,仅依靠本数据中心内的资源即可进行自愈,无需数据中心间的网络流量,降低带宽成本;ECS还支持WORM功能,避免数据误修改,更好地满足法规遵从要求;ECS还支持多数据中心部署架构,从任意数据中心均可访问所有数据,即使在数据中心故障时,其他数据中心仍能接管应用访问……

总之,ECS是经过多年市场验证的成熟、稳定的对象存储产品,具有值得信赖的数据安全性和持续运行能力,是企业级用户实现对非结构化数据保护的理想解决方案。
总有一款适合你
据胡渊汶介绍,ECS已与包括Cloudera、Oracle、Veritas等在内的100多家厂商的软件实现了集成,几乎覆盖了企业主要的应用场景。

ECS可谓是对象存储界的“百变星君”。ECS既可以独自为战,作为企业极致的备份目标设备,用于企业数据的备份和归档,其成本甚至比公有云更低,又能与戴尔科技集团以及合作伙伴的产品强强组合,满足多种业务场景的需要。比如,ECS+戴尔PowerProtect DD,可将PowerProtect DD上变“冷”的备份数据转移到成本较低的ECS上,从而释放出 PowerProtect DD上的空间资源,降低整体架构的成本。再比如,ECS+戴尔PowerScale,形成一个优化的分层存储组合,在PowerScale上的数据变“冷”以后,可以通过CloudPools将数据推送到ECS上,相当于数据的归档,归档的数据可以复制部署到多地,实现容灾。诸如此类的灵活组合还有很多。
在对象存储领域,戴尔科技集团处于领先地位。2020年10月,在Gartner公布的《分布式文件系统和对象存储的魔力象限》中,戴尔科技集团处于领导者象限。

近些年,戴尔科技集团在对象存储领域一直不断推陈出新,形成了比较完善的产品线,可以满足不同规模的用户对性能、容量的不同需求,比如,适用于中小规模企业的EX300,将性能与存储密度完美结合的EX500,还有适合大规模部署的EX3000等。特别值得一提的是,戴尔科技集团最新推出的EXF900,基于Dell EMC PowerEdge构建,配备NVMe固态硬盘,每个节点可支持12~24个硬盘,集群的规模从每个机架230TB到2.94PB,能够为大规模的现代化工作负载提供极致的性能。
除了作为备份和归档之用以外,戴尔ECS对象存储在驱动现代化的工作负载,包括人工智能、机器学习、物联网和分析应用等方面,同样展现出强大的能力。

对于每一个企业用户来说,非结构化数据的处理将是一项长期而艰巨的任务。选择一个适合的对象存储解决方案,以及一个技术和服务能力强大的合作伙伴是必须的。戴尔科技集团对非结构化数据基础架构具有长期的远景、战略和投资,能够为用户提供文件、对象和流数据分析的完整且灵活的解决方案。相信戴尔ECS对象存储“百变星君”的形象会随着大量应用场景的铺开而更加清晰和令人印象深刻。

郭涛
以“云”为基,以“数”为魂,以“智”为道,新IT,新经济。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)