天极大咖秀

登录 | 申请注册

用数据说话,亿级海量数据分析性能瓶颈如何破?

大数据在线 2020-05-11 阅读: 9,376 次

【导语】以指纹为代表的生物特征识别应用正在日趋普遍,随之而来的则是亿级数据量级的数据分析工作。如何让亿级海量数据分析做到又快又准?海鑫科金试用和对比了两套解决方案,欲知结果如何?请看下文。

数据能帮助企业更高效的生产、辅助企业做出更科学的决策……应该说,数据的重要性已经得到全社会的认同。当然,数据并不是拿来就能用,它必须经过清洗、集成、转换、分析、呈现等一系列流程后,才能为每个企业所用,这一系列动作统称为数据分析过程。

显而易见,数据分析是企业从数据中挖掘价值的关键步骤。正因为此,当前,数据分析在互联网、金融、政府、零售等多个行业呈现越来越广泛的应用态势。北京海鑫科金高科技股份有限公司(以下简称“海鑫科金”)就是其中的一个代表。

用数据说话,亿级海量数据分析性能瓶颈如何破?

海鑫科金成立于1998年,专注于多生物特征识别(包括指掌纹、人像、DNA、虹膜、声纹、足迹识别、笔迹识别等)、公安信息化综合应用、视频侦查技术和大数据综合应用这四大领域。目前,其产品在刑侦、安防、司检法、出入境及金融、酒店、社保、教育、交通、大型活动管理、场所监控和互联网应用等社会领域都获得了广泛应用。

数据量大,还要求更快更精?

海鑫科金,可以说是典型的数据密集型企业。而伴随近些年数据量越来越大,数据处理要求越来越高,海鑫科金面临着巨大的挑战。

以被普遍应用于案件现场指掌纹采集比对、入所人员捺印指掌纹采集比对、卡口人员捺印指掌纹采集比对、重点人员指掌纹比对等场景的指掌纹识别技术为例。

海鑫科金副总经理/AI研究院院长杨春宇在接受采访时表示,“指纹解决方案是一个大型的生物特征识别与认证系统,用来为居民身份证、电子护照和犯罪指纹数据库鉴定数以百万、千万、乃至亿计的指纹。随着更多的指纹添加到数据库中,以及指纹验证需求量的增加,我们必须让自己的技术解决方案满足大数据时代的需求。”

其实,这样的变化我们每个人都有切身体会,如今需要指掌纹识别的场景多了,频次高了。一个最常见的场景就是出国,过海关。

用数据说话,亿级海量数据分析性能瓶颈如何破?

大数据时代对指掌纹识别有什么要求呢?简单来说,在数据库变大、指纹验证量增加的同时,确保性能和精度和之前一致,甚至更高。如果满足不了效率需求,这套方案的实用性将大打折扣。试想如果过海关需要几分钟才能识别一个人,那一天又能通过多少人?

为满足用户的实际需求,作为国内指掌纹技术领域翘楚的海鑫科金和英特尔展开了深入的探讨。

傲腾,更具性价比的选择

为什么选择英特尔?还得从指纹识别的技术特点说起。

指纹识别比对技术解决方案一般包括数据获取、预处理、特征 提取、比对、后处理等主要环节(参见图1)。相比其它生物特征识别技术(如人脸识别等),指纹比对是一种典型的CPU及内存密集型算法:指纹系统从现场采集的原始指纹数据,经过预处理和特征提取之后,会形成结构化的点集,再将其与后台数据库中百万量级的指纹实例进行比对,这时就会涉及大量的逻辑判断分支,这样一来,解决方案的性能会严重依赖于内存资源的可用性,同时对通用计算内核的性能需求也非常高。

用数据说话,亿级海量数据分析性能瓶颈如何破?

对CPU和内存强依赖,综观如今的IT市场,能同时满足这两点的,恐怕只英特尔一家。

最终,英特尔和海鑫科金技术团队选择了第二代英特尔至强可扩展处理器作为目标平台的核心支撑。与此同时,选择英特尔傲腾数据中心级持久内存作为“二级存储”来部分地取代传统内存。

特别强调一下,这是对比后的结果。在选型过程中,海鑫科金对纯DRAM和用傲腾数据中心级持久内存替代部分DRAM两种方案进行了综合对比,基准测试结果表明,采用傲腾数据中心级持久内存的方案具有很好的性价比优势。

拿数据说话

为了更直观的呈现,这里简单介绍下测试环境。

用于对比测试的两套方案都基于标准双路服务器,CPU采用第二代英特尔至强铂金处理器8280,总规模为960GB的指纹比对数据库被分为96个单体尺寸为 10GB的切片,每个切片包含的记录条数略高于400万条,这些数据都存放在容量为1TB的英特尔固态盘DC P3520上。

在这些配置条件相同的前提下,两套方案的不同之处在于,其中一套采用768G的DDR4内存,另一套采用192GB的DDR4内存搭配1TB的英特尔傲腾数据中 心级持久内存。从成本的角度看,两者相当。

海鑫科金在两套环境中运行同样的海鑫HABIS X指纹比对系统,并测试其记录查询性能。结果表明,采用傲腾数据中心级持久内存方案的记录查询速度(单位:QPS)比纯DRAM方案高出26%(如图2所示)。

用数据说话,亿级海量数据分析性能瓶颈如何破?

为什么会有这么大的提升?奥秘在于当CPU处于高负载时,在系统从DRAM(缓存)加载数据到CPU进行计算的同时,也执行了从傲腾数据中心级持久内存加载数据到DRAM(缓存)的动作,从而提高了系统进行数据读取的效率。而且并行处理的批量数据越多,基于傲腾数据中心级持久内存的方案取得的相对表现就越好。

通俗的讲,CPU和内存之间的通信是有瓶颈的,一味增加内存也并不能在性能上获得线性增长的效果,而256GB内存可不只是比128GB的贵一倍。换句话说,成本的增加和性能的增加不成比例。这是傲腾数据中心级持久内存的最大优势,以远低于内存的价格达到准内存的性能。

实际上,双方技术团队还做了另外一组测算,如果把两套方案略作调整,让两者的QPS处于相同水平,那么基于傲腾数据中心级持久内存的方案总体拥有成本(TCO)比纯DRAM方案会低29%。

更重要的是,这些结果还都是在尚未对系统进行任何优化、也没有对软件进行任何更改的前提下取得的。这意味着一方面,海鑫科金不用做任何改动就可以将现有解决方案部署到新的至强平台上,另一方面,未来性能还有比较大的提升空间。英特尔傲腾数据中心级持久内存为系统性能的提升给出了一条更为经济实惠的路径。

即录、即比、即反

目前,基于英特尔傲腾数据中心级持久内存的海鑫科金云智能多生物识别系统 HABIS X已经用于现场测试,在某直辖市相关单位的指掌纹系统建设项目中,新方案各项指标均满足设计要求,获得了用户的充分肯定。

以现场勘查为例,工作人员往往需要对案发现场的指掌纹进行特征提取和比对,这是一件极为费时费力的工作,环境通常十分复杂,指纹的提取经常遇到多人、重叠、残缺等情况,嫌疑人的指掌纹往往混杂在事主家人和亲友邻居的指纹里。采用传统技术方案对现场指纹进行提取及比对,由于系统性能的局限,现场人员往往回到单位后才能进行电子化信息的录入以及后续的比对,这个繁琐的流程花费的时间通常会数以天计。

在应用了海鑫科金推出的HABIS X方案后,可以做到“即录(录入)、即比 (比对)、即反(反馈)”,在现场当即给出比对结果。这不但提升了信息录入的规范性、时效性和质量,而且大幅减轻了基层技术人员的工作负担,提高了现场人员的工作积极性和事业成就感。

更快、更精准的识别,并不是海鑫科金指掌纹识别系统追求的终点。海鑫科金副总经理、公共安全事业部总经理陈俊就表示,接下来他们还将在移动端、人工智能,以及云方面发力。英特尔作为云计算和人工智能的积极倡导者,也会继续和海鑫科金共同创新,推动指掌纹识别更上一层楼。

 

大数据在线
洞悉技术趋势,聚焦产业发展

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)