天极大咖秀

登录 | 申请注册

“以数治税” 从数据治理开始

郭涛 2022-06-30 阅读: 4,895 次

时至今日,数字化、智能化已经成为了各行各业实现创新发展的关键引擎。在关系国计民生的税务行业,利用大数据、人工智能(AI)等新一代信息技术推动税收征管变革成了当务之急。

2021年3月,中共中央办公厅、国务院办公厅印发的《关于进一步深化税收征管改革的意见》明确提出:着力建设以服务纳税人缴费人为中心、以发票电子化改革为突破口、以税收大数据为驱动力的具有高集成功能、高安全性能、高应用效能的智慧税务;到2023年,实现从“以票管税”向“以数治税”分类精准监管转变。

“以数治税”的前提和基础之一,就是要做好数据治理。数据治理的概念诞生已经有20多年,但是包括税务行业在内,数据治理在很多行业中还是“雷声大、雨点小”,究其原因,很多数据治理项目从建设之初就是面向IT人员、而非业务人员,难学难用难管,不能物尽其用。

按照国家税务总局“金税四期”的目标,以及总省两级对数据管理的具体要求,四川省税务局大数据风险管理局着手对省级数据进行了治理与管理,找到了收集数据、了解数据、优化数据和使用数据的有效途径和方法。在这背后,IBM客户成功团队以及IBM Cloud Pak for Data的Watson Knowledge Catalog功不可没。
01
打造一个完整的数据知识体系

随着税务业务的快速发展,四川省税务局的各类业务数据不断增长,海量的数据、多样化的应用、复杂的分析需求,亟需一个能对所有业务数据进行统一治理、保障数据质量、确保数据合规、人员自服务消费的解决方案。

图片1

涵盖历史版本与现有数据,四川省税务局拥有大约70多个数据库,而且分布在多个地方。把这些数据全部汇总后,如果不做深入的数据治理,四川省税务局实现“以数治税”的创新突破将举步维艰。

四川省税务局大数据风险管理局在成立之后,花费了两年左右的时间,将70多个系统的数据全部汇聚到一个统一的大数据平台上。但是问题又来了,很多历史数据虽然还“健在”,但是其内容和业务含义已经无从辨别,或者由于缺乏必要的逻辑模型和物理模型,不能被直接使用。

“没有一个完整的数据知识体系,这是最困扰我们的地方。”四川省税务局大数据风险管理局大数据平台技术专家肖斌举例说,“我们的职责除了汇聚数据以外,还要为各个业务处室甚至基层部门提供数据服务。但在没有实施数据治理之前,想要了解数据存放在哪张表中,表与表之间的逻辑关系如何,某个字段有什么特殊含义,或者想提取相关数据,都要靠人的经验以及口口相传,一旦相关人员进行岗位调动,情况就比较尴尬。”

因此,打造一个完整的数据知识体系,变数据不可知为可知,方便业务人员按需查找和使用,这是四川省税务局实施数据治理的初衷。
02
数据治理提升数据质量

在决定启动数据治理项目后,四川省税务局大数据风险管理局曾经对市场上多个主流的数据治理产品进行了考察和比较,最终选定了IBM Cloud Pak for Data平台上的Watson Knowledge Catalog(下文简称“IBM WKC”)。这个选择的过程今天看起来就像“众里寻他千百度,蓦然回首,那人却在灯火阑珊处”这句诗所描述的那种感觉。

众所周知,IBM Cloud Pak for Data是IBM混合云战略中极为重要的一条产品线,其中包含了很多与数据中台建设相关的产品,而IBM WKC就是用于数据治理的重要工具。

演示文稿1_看图王
IBM Watson Knowledge Catalog技术架构

概括说,IBM WKC是与企业数据监管平台紧密集成的数据目录,可以帮助使用者快速发现、管理分类、数据资产共享、数据集、分析模型及其与组织中其他成员的关系,并通过数据监管、数据质量和积极的策略管理,帮助企业为大规模应用AI做好充分准备。从某种程度上说,IBM WKC就像个连接器,它一边与数据仓库相连,无论是Data house中的数据,还是Hadoop集群中的元数据,抑或是Apach Atlas中的数据,都可以导入到IBM WKC中,而在完成一系列数据治理步骤后,这些经过处理的数据转变为数据资产,为业务应用提供数据分析的支撑。

IBM WKC在元数据管理方面的优异表现让肖斌印象深刻。IBM WKC不仅是把数据表与字段管理起来,更是将四川税务局的业务与数据进行关联,相当于在税务系统上增加了征管管理,对税务管理和服务工作进行指导。业务中用到的所有表、证、单、书与所有数据的关系,都可以通过一个知识图谱清楚展现出来。

“IBM WKC让我们在业务中实现了双向追溯,可以从表、证、单、书追溯到征管规范,准确掌握表、证、单、书的数据是存放在哪个表中,与哪个业务人员相关,即从业务的视角追溯到技术。”肖斌介绍说,“技术人员必须明白业务的含义,才能确保取数的准确性。借助IBM WKC,技术人员可以通过数据表,追溯到与业务相关的表、证、单、书,了解征管规律,对业务进行有效指导。”

IBM WKC的强项之一是数据资产目录。四川税务局通过建立资产目录对所有系统进行统一管理,可以及时准确地了生产系统每个月的数据增长情况,以及历史数据的状况。目前,四川税务局仅所有表的数据就有200TB+,资产目录的信息对四川税务局规划相应的存储容量具有重要参考价值。

四川税务局的业务变化比较频繁,数据质量问题会直接影响到业务的开展。“我们陆续定义了许多业务规则,让IBM WKC根据这些规则对重要的业务表进行扫描,检验其数据是否符合业务规范。截至目前,我们已经发现了90多万条有问题的数据。”肖斌介绍说。

参与了四川税务局数据治理项目的IBM中国客户成功架构师张敏补充介绍说,四川税务局采用IBM WKC,首先建立了资产目录,便于快速定位数据,实现对数据资产的管理,为之后的数据治理奠定了基础;其次,实现了自动化的数据质量管控,在数据治理平台之上建立一套可持续完善的规则库,并可以自动地发现增量数据的质量问题,为基于可信的数据源做分析提供支撑;再次,IBM WKC通过与Apache Atlas建立“数据血缘”,可以实现端到端的分析,溯源整个ETL过程;最后,将数据治理的结果反馈给具体的业务系统,进一步提升数据质量。
03
共同“探索”数据治理之道

四川税务局在实施数据治理项目的整个过程中,IBM客户成功管理团队就像其左膀右臂。肖斌用“探索”这个词来描述四川税务局大数据风险管理局与IBM客户成功管理团队在项目中的合作关系。双方并不是传统意义上的客户和供应商的关系,而是面向具体的业务场景进行联合开发与创新,旨在为税务行业的数据治理探索出一条捷径。

微信图片_20220629163438

“以前,我们在采购一些世界先进的产品后,通常需要花费很长时间才能将它用起来。像IBM WKC这样全球领先且集大成(功能全+模块化)的方案,如果没有IBM客户成功管理团队的指导和辅助,确实很难让其在短时间内发挥应有的作用。”肖斌如是说。

四川税务局希望构建一个完整的数据知识体系,这是一个十分明确的目标。但是具体如何构建,之前并没有一个可以借鉴的成功范本。双方正是基于此进行了共同探索。通过试用、不断融入新的业务需求,将数据表和与业务相关的表、证、单、书以及业务规范等联系起来,实践证明,IBM WKC就是那个可以承载这一切的系统。

肖斌介绍说:“在实施IBM WKC的过程中,来自IBM的商务人员、技术顾问等都曾亲临现场指导。IBM WKC在升级后功能更多更复杂了,正是在IBM专家的帮助下,我们一起梳理业务思路,才能更好地按需选择我们所要的功能与模块,才能在较短的时间里实现既定的数据治理目标。”

“扶上马再送一程”,这就是IBM客户成功管理团队秉承的一切以客户为本的理念,它在四川税务局数据治理项目中又一次得到了验证。

俗话说,通则不痛。按肖斌的话说,IBM WKC帮助四川税务局打通了整个数据治理的通道,未来还会将更多的系统和平台纳入到IBM WKC的管理范围之内。

郭涛
以“云”为基,以“数”为魂,以“智”为道,新IT,新经济。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)