天极大咖秀

登录 | 申请注册

“冷数据”更需要“热处理”

郭涛 2020-08-14 阅读: 7,227 次

数字化时代,人们最怕的一件事是什么?丢手机!

因为与个人密切相关的几乎所有重要信息都在里面。没有手机,简直是寸步难行。很多人在手机存储空间已满的情况下,宁愿再购置一部新手机,也不愿意删除旧手机上的数据。

我们面临的严峻挑战是,不仅数据量呈几何级数增长,而且数据的生命周期越来越长;不仅要保证热数据的实时响应,而且要实现冷数据的低成本、持久和可靠保留。想到这,是不是有些“蓝瘦,香菇”?

分层存储
17年,归档的变与不变

回溯存储发展的历史,早在2003年,信息生命周期管理(ILM)便成了存储领域的一个时髦词。ILM让我们记住了两句话:第一,所有数据都要经历从产生到消亡的一个价值转换的过程;第二,在这个过程中,最好的应对之策就是根据存储阶段以及价值的不同对数据进行分类,然后制定相应的策略,将正确的数据存放到正确的存储设备或介质上,从而实现成本最低、服务最优。

17年过去了,ILM这个英文缩写似乎鲜有提及,但是与ILM一脉相承的分层存储理念却越来越深入人心,而且对于数据“温度”的掌握和应对,企业也做得越来越细致,热数据、温数据、冷数据甚至极冷数据,如何分而治之,行业也都有明确的规范可循。

那么当前挑战的紧迫性和高难度到底体现在哪里呢?17年前,我们谈论ILM时,TB级数据量已经被认为是“海量”,现在则迈入了ZB级时代,有几个数量级的增加。IDC预测,全球年新增数据量到2025年将达175ZB。如果用市面上主流的8TB硬盘来存储这些数据,需要230多亿块硬盘,以每块硬盘的价格1300元计算,存储成本高达30万亿元,相当于2019年中国GDP的三分之一。这就是最大的挑战之一,存储成本难以负担。

另外,随着数据驱动的理念逐渐深入人心,对数据进行深入挖掘和分析成了必不可少的过程,以前看似无用或不被经常访问的数据,其中蕴藏的价值可能是你想象不到的。比如,发生在1992年的南医大的一场命案,在28年后通过DNA检测得以侦破。可见基因数据的长久可靠保存意义重大。

数据量猛增、数据价值被层层挖掘、数据的生命周期不断延长,但是数据保留和保护的现状又是怎样呢?数据流失与数据管理的混乱是企业挥之不去的痛。统计数据表明,当2025年全球新增数据量达到175ZB时,真正能被存储下来的数据仅有15ZB左右,流失率超过91%,而在这些被保存下来的数据中,能够得到充分有效分析和利用的数据则是少之又少。

考虑到数据对业务的影响,大多数企业通常会把关注的目光投入到始终在线的热数据上,比如交易数据,因为这可以给企业带来直接的经济效益。像备份数据这样的温数据,虽然访问的频次相比热数据降低不少,但是备份数据可以“重新利用”,比如用于开发或测试,以及数据挖掘等,所以也成了当下应用的热门。而几个月甚至几年也不会被访问的冷数据,是不是一直在被“冷处理”,或者无人问津?

UCloud优刻得存储平台研发总监吴斌炜介绍说,在企业中,大约只有20%的数据属于热数据,也就是实时业务应用数据,而80%是冷数据,主要是备份、归档,或用于数据分析、人工智能等。

其实,数据归档是一个老生常谈的话题,磁带库就是最典型的归档产品。虽然过去这几十年中,“磁带将死”的声音一直不绝于耳,但是因其成本低、保存时间长等特点,磁带仍有自己的一席之地。还有与磁带特点类似的蓝光存储,不仅被用于归档,而且现在还被创新地用于数据湖的承载。

云计算的出现对传统IT构建和应用模式的颠覆是方方面面的,先是业务系统、数据库等上云,然后是备份、容灾上云,现在数据归档也开启了云大门,这是必然的发展趋势。继续在本地实施长期的数据保留,还是选择云归档,这成了企业用户不得不面对的一道新选择题。但是归根结底,选择的标准是不变的,那就是:一,能否满足用户不同业务场景的应用需求;二,能否保证低成本和高可靠。
抓开源,更要懂节流

技术的创新与快速迭代有时会出乎你的想象,很多时候,在你被诸多应用痛点困扰时,技术的突破会让你有一种豁然开朗的感觉。UCloud近期发布的新一代归档存储产品就让人有这种感觉。它采用UCloud全新自研存储架构,相较标准存储降低近80%的存储成本,价格低至0.024元/GB/月,为冷数据的归档开辟了一条新路径。

企业的生存之道——开源与节流。从数据的角度,开源就是处理好热数据,实现业务增收;节流则是尽可能优化数据的存储,达到降低成本的目的。数据归档在很大程度上就是成本的比拼。

存储成本主要包括两大部分——运营成本和硬件成本。UCloud优刻得存储平台资深研发工程师方然分析说,硬件成本主要包括CPU、内存、存储等。UCloud的思路是提高硬件成本中存储成本的占比,这样客户的单位容量存储中平摊的CPU、内存、网络等其他开销就可以大幅降低。

为了降低存储成本,UCloud新一代归档存储“双管齐下”。一方面,UCloud新一代归档存储在国内首次采用了西部数据的高密JBOD机型和SMR盘(叠瓦式磁记录硬盘)。相较于传统CMR磁盘,SMR磁盘最大的优势是磁道按Zone呈现的叠瓦式分布,提高了数据存储的密度,单位机架尺寸(每U)的存储容量提升5.375倍、磁盘数量增加59%,同时单块磁盘的存储空间提升150%。

另一方面,作为具有自主研发能力的云服务商,UCloud基于自身多年来在公有云分布式存储领域积累的经验,在其新一代归档存储中采用了新一代自研归档存储架构,可以更好地兼容SMR、CMR盘,实现双活高可用,支持上下电的IO调度,以及EC的灵活配置和磁盘故障的自动化发现。高密机型SMR盘与自研架构相得益彰,硬件成本降低自然不在话下。硬件成本

对于一些现代化的超大型数据中心而言,每年动辄上亿甚至数亿元的电费是难以承受之重。在运营成本中,占大头的是电费,又细分为空调电费、设备电费等。UCloud主要优化的是设备电费。UCloud新一代归档存储采用软硬件协同的理念达到降低运营成本的目标。方然介绍说:“我们结合硬件选型,在软件层面自主研发了一套磁盘上下电调度系统,在保障磁盘寿命的同时,极大地降低电费成本,使磁盘能耗降低近90%,在纯写入场景下,耗能磁盘块数仅为原有的5%。”

如果仅比较成本,磁带存储、蓝光存储也具有各自的优势,为什么一定要采用基于机械式硬盘的UCloud新一代归档存储呢?除了成本这个重要因素以外,归档存储的长期可靠性、易管理和易维护性等也是必须考虑的指标。比如,磁带介质容易受到温度、湿度等自然环境的影响,保存不当可能导致数据损失,另外磁带的管理和维护也需要更多人工介入等。

在保障可靠性方面,UCloud新一代归档存储实现了存储节点双机头可见,即使发生故障也可快速自动切换;通过采用大比例、可灵活配置的EC,能够将存储利用率提升150%;通过硬件加速,使EC计算相较于传统的纯软件计算,吞吐能力提升4~5倍;实现了全链路CRC校验,全面保障用户数据的安全性。特别值得一提的是,UCloud新一代归档存储具备公有云服务简单、灵活等优势,为企业上云消除了后顾之忧。
新技术新场景,物尽其用

UCloud新一代归档存储中的“新”不仅代表了新的技术手段,而且更有效地支持了大量新的应用场景。比如现在非常火爆的视频应用,某短视频巨头的部分业务就运行在UCloud新一代归档存储之上。该短视频平台一天的数据量就有3PB。除了提供海量、低成本的空间存储这些音视频数据以外,合规也是非常重要的一项需求。按照监管要求,现在的视频直播资料至少要存储一两个月,而该平台则要求存储6个月。海量音视频数据的长期、可靠、安全存储,可能是未来归档存储面临的最大挑战之一。UCloud新一代归档存储已经想在前面,走在前列。

吴斌炜将当前归档应用的主要场景进行了梳理,归纳出三大类、九大典型场景:多媒体归档场景,主要包括监控视频、广电媒资和在线直播,这是目前最热门的应用场景;历史数据合规存储,包括操作日志、数据库备份、电子合同等,这些是企业应用中最常见的场景;大数据、AI分析数据归档,包括自动驾驶、基因测序、智能制造等,这是最具价值前景的应用场景,也是归档未来重要的发展方向。
举例来说,在多媒体归档场景中,UCloud新一代归档存储是蓝光存储的一种理想替代方式,不仅可以提供不亚于标准存储的写入带宽,实现分钟级数据异步取回、在线回看,还可采用纠删码冗余策略保障数据安全可靠,完成自动化的数据生命周期管理,同时减少存储设备占地空间;在历史数据合规存储场景中,针对需要定时清理备份、缩减备份成本的用户,UCloud对象存储支持数据生命周期管理功能,可实现自动化的数据定期清理、定期转入归档存储;在大数据、AI分析数据归档场景中,UCloud新一代归档存储能够为大量的生物信息、IoT实时分析数据等提供长期归档存储。

“客户的需求就是我们的下一个产品”,这不仅是UCloud的口号,更是其立足之本。以新的技术手段解决新的应用痛点,UCloud新一代归档存储从客户需求中来,又走到客户的业务中去,不仅让冷数据拥有更好的栖身之所,更能充分发挥数据应有的价值,两全齐美。

郭涛
以“云”为基,以“数”为魂,以“智”为道,新IT,新经济。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)