" 数据二十条 " 引来热议的同时,也让数据科学再次成为各界关注的焦点。业界普遍认为,我国具有海量数据规模和丰富应用场景,全面激活数据要素潜能和做强数字经济,离不开数据科学的长期支撑。
无独有偶,在 2023 数据科学峰会上,IDC 等权威咨询机构也作出判断:企业与组织需要把数据科学能力纳入未来发展战略之中,数据科学基础平台将成为未来产业数字化的标配。
作为一门发展了五十余载的学科,数据科学为何能做到历久弥新?在人工智能浪潮中,数据科学的价值缘何得到持续凸显?正如百分点科技董事长兼 CEO 苏萌所言:" 在经历小数据和大数据时代之后,数据科学正进入全面拥抱 AI 浪潮的 3.0 时代,数据科学将加速组织数智化能力的进阶。"
全面拥抱数据科学 3.0 时代
"ChatGPT 之所以表现如此好,关键原因在于数据质量非常高,可以训练出非常好的效果。今天,AI 的底层基础就是数据科学。"IDC 中国副总裁兼首席分析师武连峰谈到数据科学能力时举例说。
的确,数据科学作为使用科学方法从数据中提取意义和洞察的领域,综合了数学、统计学、计算机技术、人工智能以及领域知识等,核心目标是做数据在业务侧的价值实现。如今,随着数字化转型纵深发展和数据要素化全面提速,广大用户愈发重视建设数据科学能力。
" 当前是数据科学的 3.0 时代,正在全面拥抱 AI 浪潮。" 苏萌介绍道," 在这之前,数据科学经历了小数据时代和大数据时代。"
在小数据时代,数据科学主要运用关系型数据库、数据仓库、ETL 等技术,主要面向结构化数据、历史数据和线下数据,聚焦商业领域的数据整合、描述性分析和 BI 等应用;在大数据时代,互联网和移动互联网带来了海量非结构化数据和数据处理分析技术的更迭,像 Storm、Spark 等计算框架极大提升了数据处理的深度、广度和速度,而机器学习成为数据科学的重要技术手段,市场数据科学应用以单点技术和场景为主。
" 大数据成为孕育 AI 的沃土,AI 则是大数据的重要使用者。在这一波人工智能浪潮中,AI 逐渐成为新一代基础设施,多模态数据需要进入到可分析、可解释、可参与预测和决策辅助的场景中来。" 苏萌表示道。
因此,进入到数据科学 3.0 时代,无论是数据的复杂度,还是技术迭代发展的速度,亦或是各种场景与数据、技术的深化融合程度,均远胜过往,这意味着单一工具和单点技术已经不能满足用户诉求。
" 端到端的数据科学解决方案成为大势所趋。" 苏萌介绍道。事实的确如此, Plantir、Alteryx、百分点科技等国内外企业均致力于完善和迭代数据科学平台产品体系,构建端到端数据科学解决方案,降低数据集成、数据清洗等底层工作复杂度,加快数据科学在千行百业中的落地。
这其中,百分点科技的数据科学基础平台 DeepMatrix 又尤为值得关注。
DeepMatrix,树立数据科学基础平台标杆
正所谓工欲善其事必先利其器。
当下,很多行业用户一方面数据规模越来越大、数据类型愈发广泛和丰富、数据孤岛现象愈发普遍;另一方面,实时数据分析需求愈发增长,数据安全可信合规保障难度又持续提高,使得数据要素的充分释放依然面临诸多挑战。
例如,根据相关数据统计显示,当前全球注入 AI 模型的数据连 1% 都达不到,数据要素的释放在未来有着巨大空间。
无疑,数据科学基础平台就是广大行业用户们释放数据要素潜能的利器。Gartner 认为,面向未来,数据科学与机器学习平台必须实现全生命周期的数据科学活动,能够自动化或增强数据处理、模型构建、在线服务的各项工作;同时,还具备多人协作和广泛的开源与集成能力。
" 数据科学不能脱离真实场景。本质上,数据科学是一项团队型任务,必须具备三大核心能力:软技能、一体化工具和领域知识,而数据科学基础平台则可以很好地支撑起这三大核心能力。" 百分点科技 CTO 刘译璟表示道。
因此,百分点科技根据过去十三年里多个行业数据价值实现的丰富实践,逐步打造出数据科学基础平台 --DeepMatrix,沉淀出规划设计、数据治理、建模分析和数据应用四大阶段,覆盖数据价值实现的全生命周期,具备全面数据类型支持、完善数据治理能力、强大数据建模能力、丰富数据洞察能力、高效知识生产能力和高度复用领域知识六大能力。
据悉,DeepMatrix 数据科学基础平台具备两大特征:一是知识化,不断将程序性知识、事实性知识和概念性知识等数据科学知识沉淀到平台之中,有效解决传统企业数字化转型面临的数据科学冷启动问题。例如,在数据建模方面,DeepMatrix 已经沉淀了数百个机器学习算法、领域模型并支持多语种语义分析,大部分都是经过行业真实场景验证过的。
二是智能化,DeepMatrix 内置了智能辅助开发系统,自动化辅助开发者选择方案和完成数据适配,并智能化进行方案精调和改进,并在数据治理等多个环节依托知识库和语义理解等智能技术帮助开发者提升效率。例如,在数据治理方面,DeepMatrix 具有上万个领域数据标准,可以智能构建数据标准和血缘,并具备零代码数据服务。
" 过去,在单点场景的数据价值实现中,大家往往是依托各种半工具化产品;如今,端到端的数据价值需求趋势明显,需要通过集成化、工程化、服务化的数据科学基础平台来帮助用户充分释放数据要素的潜能。" 刘译璟补充道。
无疑,对于数据科学基础平台的构建,百分点科技的 DeepMatrix 已经树立了标杆。百分点科技不仅具有多年的行业实践经验,其数据科学基础平台在多种复杂场景中均得到很好淬炼;另外,百分点数据科学基础平台还获得各大机构的广泛认可,多次入围 Forrester AI/ML(人工智能 / 机器学习)平台报告,并且在信通院数据中台解决方案专项评测中,以 283 个用例全部通过的方式获得优秀级(最高级)认证。
数据科学市场需要领头羊
" 在数字中国建设中,释放数据生产力是关键。除了东数西算等基础设施硬件建设外,还需要构建数据文化、推动数据科学发展等‘软实力’的建设,这样才能把数据生产力彻底释放出来。" 北京大学数学科学学院、光华管理学院教授,中国科学院院士陈松蹊在 2023 数据科学峰会上如是说。
据市场研究机构 MarketsandMarkets 评估,2021 年全球数据科学平台市场规模为 953 亿美元,预计 2026 年数据科学平台市场规模将达到 3229 亿美元,复合年增长率 ( CAGR ) 为 27.7%。毫无疑问,随着中国数字经济的快速发展,中国数据科学的市场应用前景、增长速度和未来空间更值得期待。
大数据在线认为,中国数据科学市场方兴未艾,市场更加需要产业领头羊来牵引产业良性发展、加速技术创新和行业实践、普及数据科学文化和培养人才。相比于阿里、华为这些综合型选手,百分点科技更像是一个数据科学领域的专业型选手,聚焦和专注数据科学领域多年,并且正在数据科学市场跑出领先身位。
首先,百分点科技多年以来致力于数据科学技术的应用探索。从国内规模最大的推荐引擎技术服务商,率先将数据科学技术服务 2000 多家互联网电商和媒体客户,到敏锐觉察到大数据在 To B 领域数字化转型的重要价值,将积累下来的数据科学技术、产品和应用到下沉到金融、零售、媒体等多个行业;再到将在互联网和企业服务沉淀的数据科学产品与技术应用于政务领域,面向数字城市、公安、应急、统计等领域,利用数据科学助力政府治理能力提升和治理体系现代化。
其次,百分点科技非常注重数据科学技术的生态良性建设。以标准为例,百分点科技参与信标委大数据和人工智能标准工作组,参与制定大数据参考架构、术语等多项国家标准和应急管理、生态环境等行业标准的研制,持续将自身最佳实践输出给标准机构;此外,百分点科技还与华为、百度智能云、京东云等合作伙伴紧密合作,共同推动数据科学技术生态的持续发展。
第三,百分点科技一直重视数据科学文化的建设。以人才培养为例,针对数据科学人才培养与实际需求脱钩的情况,百分点科技近年来携手国内各大高校联合推出了数据科学产教融合计划,将多年的实践经验、软件、工具与最新案例提供给高校,为高校学生提供实操培训。
而针对行业用户的数据科学能力建设,百分点科技还联合 IDC 发布业界首份数据能力进阶白皮书《用数据创造价值 以智能激发增长 -- 数据科学基础平台白皮书》,为广大行业用户的数据科学能力建设、数据思维形成和数据文化推广提供了重要的参考价值。
" 未来,大数据、AI、云计算、智能交互等技术将与物理世界深度融合,将迎来数据原生时代。数据模态会更加丰富、质量更高、时效性更强,算法会更先进、算力要求会更强。百分点科技将继续致力于以数据科学来加速数智化能力进阶,用数据科学构建更智能的世界。" 苏萌最后表示道。