2010年,Pentaho的创始人兼CTO James Dixon在纽约Hadoop World大会上提出了“数据湖”概念。10年时间过去,“数据湖”有了长足的发展。
5月13日,腾讯云举行“云原生智能数据湖”发布会,首次对外展示完整云端数据湖产品图谱,并推出两款“开箱即用”数据湖产品,数据湖计算服务DLC和数据湖构建DLF。
下面我们一起来看看腾讯云发布的云原生数据湖产品。
一、腾讯的云原生数据湖产品矩阵
对于云计算而言,数据湖产品最大的优势在于能够为任意规模的异构数据提供强大的存储能力,而且这种存储具备保真性、灵活性、可管理、可追溯等特点。
这次腾讯发布的产品图谱,不但完全具备这些优点,而且基本涵盖了企业对于数据处理各流程的不同需求,引起行业高度关注。
腾讯的数据湖产品图谱包括包括数据湖存储、数据湖算力调度、数据湖大数据分析、数据湖 AI 能力、以及数据湖应用和云上基础服务六个层面,能够以矩阵化的形式,为企业带来全方位、一体化的数据服务。
图谱中,目前已经有两个产品实现了实用化,已经具备“开箱即可使用”的状态。这次发布会上,腾讯就向业界全景式展示了这两款产品——数据湖计算服务(Data Lake Compute,简称 DLC)和数据湖构建(Data Lake Formation ,简称 DLF)。
其中,DLC产品的核心功能,是为用户提供使用标准SQL对异构数据进行高效管理的途径。部署了DLC后,用户不再需要像过去那样花费大量资源和时间,去维护和处理底层数据存储和计算架构,只需随时编写SQL,就可用集群查询完成运维工作;而DLF产品的功能,则是为用户提供统一元数据管理、多源数据入湖、任务编排、权限管理等数据湖构建工具,让用户在实现数据入湖时,能够节省30%的资源、以及减少60%的时间消耗。
二、腾讯云原生智能数据湖产品发布的背后
腾讯云原生数据湖产品的发布,是对当前云计算领域新发展趋势的顺应和把握。
这个新趋势由三大主要方向组成:首先就是数据和应用的普遍“云原生”化,自从James Dixon在10年前提出数据湖的概念以来,云计算市场日益向“原生”方向演进。据行业数据显示,到今年底以前,80%以上的应用开发和部署,都将建立在云设施和操作系统的基础之上。同时,全球数据总量中有10%到20%将成为关键数据,这些数据也将在云上产生、并存储和处理。
第二是数据源的多元化。由于经济全球化程度的加深,企业的业务越来越多元化,因此他们的数据源、以及大数据分析技术也随之呈现出多元化特征。企业迫切需要能够对不同数据源、异构数据进行灵活处理的新技术;第三,在前述两大趋势的驱动下,以亚马逊等为代表的的世界主要云计算厂商,都在积极推出云原生数据湖产品。而腾讯作为全球领先的云计算厂商,推出原生数据湖产品完全是意料之中的事。
从企业用户角度看,腾讯云这次发布的产品最值得称道之处,就在于“一体化”。这个产品图谱在数据存储、分析等多个层面,都以一体化的形式,为企业带来了效率的极大提升。在数据存储方面,腾讯云原生智能数据湖产品由于采用了COS服务为核心的设计思路,因此在处理任意规模异构数据时都具有极高效能。
在数据分析层面,腾讯云的智能数据湖产品,既能够支持半托管的泛Hadoop服务,又可提供全托管数据服务。用户可以基于此进行功能的自定义,或者利用腾讯云提供的数据协作工具对计算服务进行编排和调用,大幅提升对海量数据的洞察力。
三、腾讯云原生智能数据湖产品,企业的实时智能服务引擎
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。
如上所言,腾讯云数据湖产品由于采用了一体化架构,其在部署和应用时,具备极高的便捷性和高效性。例如,由于腾讯云的数据湖计算服务采用一体化的无服务器架构,用户在部署应用时,完全可以省去传统的数据分层建模,让海量数据分析的准备时间大幅缩减。
与传统的本地自检大数据集群模式相比较,部署腾讯云原生数据湖产品后,企业的数据湖构建时间可以减少6成、硬件资源可节省3成,所需的运维工程师队伍能够减少5成左右。而与此同时,数据分析计算性能却能提升35.5%。
产品的便捷性和高效性反映到实施层面,就是能够令企业数据湖配置的复杂性大大降低。在以往,企业在大数据存储和分析过程中,遇到的最棘手问题,就是如何打通由于异构数据造成的“数据孤岛”。而腾讯云的原生数据湖产品,可以极大提高数据入湖准备的效率,方便地管理散落各处的孤岛数据,让企业数据架构的部署和配置更容易。
从业务方面来看,部署了腾讯云原生数据湖产品后,企业可以灵活地使用不同的大数据分析技术,快速构建友好的数据架构,快捷地解决多元化分析场景的数据需求。因此,云原生智能数据湖,能够很好的扩展计算和存储资源,同时能极大地降低运维管理难度,实现业务灵活部署。
概括来说,腾讯云打造的原生数据湖产品对企业来说即是打破数据孤岛、实现多元化数据分析的利器,也是企业企业的实时智能服务引擎。