“与过去相比,现在的IT环境有了显著的区别。首先,过去会划分重要数据、次要数据和不重要数据,现在则是所有数据都重要,都不能丢失;其次,过去应用类型和数据量相对较少,如今应用则是五花八门、种类繁多;第三,过去基础设施相对单一,现在的基础设施设备数量丰富,涵盖面极为广泛,核心、边缘、云端都会涉及。”国内一家三甲医院的CIO向大数据在线如是说。
的确,这位CIO所遇到的正是当下最为普遍的情况。Gartner首席分析师Pankaj Prasad透露,企业IT基础架构和应用程序所产生的数据量正以每年2-3倍的速度增长,其中像指标、日志等机器所产生的数据越来越多,并且类型丰富。
如今,我们需要面对是一个机器世界,数据就是这些机器的“语言”,通过基于数据不断去认识和了解机器世界,并与之更好地交互,才能让世界更加智能。也正因为如此,如何将海量多源异构实时的机器数据进行汇聚、整合与分析已成当下很多企业都在积极着手准备的首要任务。
而在爱数公司看来,在机器世界探索数据宝藏,开放思维是不二法则。
机器数据正在改变我们这个世界。IDC《数据时代2025》报告中预测,未来机器数据将成为数据增长的主力军。的确,机器数据带来了前所未有的改变,不光是数据类型与复杂度、应用场景,甚至还有安全、法规等方面的挑战。
爱数认为,机器数据所带来的挑战主要集中在三个方面。
其一,机器数据来源多样化、复杂性高、类型繁多、格式复杂,并且具有实时产生、增长速度快、数据量大等典型特征。
其二,基于机器数据的业务场景增长迅速增加,包括智能运维、安全分析、事件管理、业务运营分析、物联网等,并且每个大的业务场景中还可以细分为更多场景,以安全场景为例,其需求和应用场景非常多样化和广泛化。
其三,随着机器数据产生量和应用场景不断提升,对于安全审计合规性要求也在迅速提升。
“机器数据带来的这些挑战是无法依靠单个产品来解决的。”爱数公司总裁贺鸿富如是说,“在机器数据世界必须通过开放思维来了解、认识和解决这些挑战。”
开放意味着打破封闭,但是开放≠开源。
在笔者看来,在机器世界中以开放思维去应对数据挑战,必须抛弃过去非此即彼的关系,从真实业务场景和需求出发,在产品层面实现深度整合与集成,从而满足用户在具体场景中的业务需求。
但现实情况谈何容易。以金融、电信、能源、互联网等行业真实情况为例,很多用户都其在底层数据分析平台上采用了开源数据分析平台ELK或商业数据分析平台Splunk,并且运行多年,与各个业务捆绑紧密。随着技术的发展,安全审计等的要求,仅仅依靠ELK或者Splunk已不能完全符合用户的真实需求。此时接入新产品,既要确保不影响到具体业务,又需要让平台整合发挥出更大优势。
为此,爱数的思路打造开放、高效、经济的机器数据分析平台AnyRobot Family 3,并且在AnyRobot Family 3中推出了创新的Hub架构,实现多源异构数据、多机器数据平台的统一纳管,释放海量机器数据的价值。
以国内某银行为例,其业务已经与Splunk进行了深度捆绑,随着新业务对于新技术的需求,以及安全与合规审计的需求,需要保证原有Splunk数据采集、分析业务不丢失和不中断的前提下,实现对Splunk的纳管。该用户通过爱数 AnyRobot Hub 架构的开放性和对多源数据、多类数据平台的纳管能力,让爱数 AnyRobot和Splunk共同服务机器数据的采集、存储和分析。
具体来看:
Splunk原有数据采集场景:在现有Splunk平台可继续使用的情况下,保持Splunk UF采集数据,然后将数据接入到AnyRobot的Collector Hub上,再令数据转发到Splunk上,在数据流上增加一个格式处理器,以确保Splunk能识别到来自Hub的数据格式,同时引入Splunk的S2S协议,保障接入的数据host字段不变。其他数据的处理方式保持不变。
新增加数据管理场景:部署AnyRobot Agent ,将Agent的数据流推送给Collector Hub,再传输到AnyRobot的Kafka,通过AnyRobot进行数据清洗、存储和分析处理。
Splunk原数据流量超出场景:为避免数据流量超出导致Splunk的搜索功能无法使用,在Collector Hub上切换部分Splunk 的UF数据流到AnyRobot上,既保障原分析和查询服务不中断,又避免数据流量超出。
历史数据查询场景:当新的数据接入到AnyRobot后,完整的查询中历史数据的部分在Splunk上。使用Calculation Hub,将请求调度给Splunk,并把接收到的数据返回给AnyRobot做统一计算。这个过程就像Hadoop的MapReduce一样,分布式请求,然后把结果再汇聚计算。
贺鸿富介绍,AnyRobot在开放思维的原则下,其Hub架构可实现多源数据连接,整合现有机器数据平台和第三方应用平台,为业务部门和IT管理人员提供统一的机器数据分析平台,满足用户的多样化需求。
从长期来看,除了在产品底层进行架构创新、实现在机器数据环境下的产品整合之外,平台+生态将会是用户用开放思维拥抱机器世界的长期保障。
众所周知,海量数据时代才刚刚开启,机器数据所带来的挑战必然是长期和复杂的,现阶段很难有一款或者一套解决方案可以解决所有问题,未来随着新技术、新场景、新应用的不断诞生,用户要想真正将海量机器数据的价值挖掘出来,一定需要广泛的产品组合与解决方案。
贺鸿富介绍,AnyRobot即采用了平台+生态的发展战略。首先,爱数将AnyRobot打造成为平台化的产品,并且与应用用型伙伴、技术型伙伴和平台型伙伴进行紧密合作,从而构建起面向机器数据的联创解决方案。“比如,爱数跟国内领先APM伙伴一起合作,将APM能力整合到AnyRobot之中,为智能运维业务场景带来更好的效果;又如,爱数与应用合作伙伴一起,构建灾备运维一体化平台,实现业务超可用。”
事实上,机器数据只是当下千行百业用户面临数据挑战的一角。从长期来看,用户需要面临是结构化数据、非机构化数据、机器数据和知识图谱数据等不同域数据所带来的复杂挑战,而平台化产品和丰富的生态必然会为解决数据挑战带来长期的价值。
“平台+生态也是爱数公司的核心商业模式,爱数将聚焦AnyBackup、AnyShare、AnyRobot和AnyDATA四大平台型产品的打造,以及广泛合作伙伴的生态建设。用户未来需要的一定是包括机器数据在内的全域数据能力,从而最终实现数据驱动型组织,实现海量数据价值的落地。”贺鸿富最后表示。