文|白 鸽
编|王一粟
生成式AI对世界的雕刻,在数据上体现得淋漓尽致。
随着AI大模型时代的到来,非结构化数据(图片、音视频等)比重日益增加。IDC数据显示,2025年非结构化数据已经占据整个已知数据的90%以上。
为了让AI更好地识别和理解这些数据,一场围绕数据的“向量化”革命正在悄然展开。
以最重要的搜索场景为例,Data x AI时代企业的需求正在发生变化。过去,搜索只需要做好全文检索、结构化搜索分词等“关键词搜索”,但现在的用户需求已经变成了向量搜索、语义搜索、多模态混合搜索等等,“猜你要搜”“图片搜索”都成了常态。
举个最简单的例子,之前我们手机相册找照片,不能用关键词搜索,就算用户体验最好的苹果手机,也最多只能按“人脸识别”的人物分类。但现在我们都可以用关键词来寻找照片,本质上,就是图片在数据层面,做到了“向量化”。
这个看似细微的变化,却是在数据层面足够掀起一场巨浪的蝴蝶效应。
OceanBase(以下简称OB) CTO杨传辉认为,AI对数据库的改变正在呈现在两个方面:
Bring Data to Al:通过数据提升准确度,让大模型更加准确,降低推理成本;
Bring Al to Data:将AI集成到数据库,实现SOL+AI混合计算,产生化学反应。
数据不仅影响着大模型性能,AI也在让数据库本身实现升级。而数据库的AI能力升级,也加速推动在RAG等场景中的应用落地。
这场双向改变的化学反应,让未来的数据库,成为一个一体化的智能数据底座。
因此,今年5月,OB正式宣布面向AI时代的到来,要从一体化数据库转型成为“一体化 AI 数据底座”。而这次变革中,OB的云上数据库OB Cloud成为先锋军。
毕竟,云天然就是适配AI,因为AI这种海量非结构化为主的数据,就是需要一个高传输、低延时的反馈,云上的分布式数据库更适合。
一个企业的AI转型,从搜索增强开始
“不知道怎么用AI,就先用知识库做一个Agent助手。”
而做Agent助手,就离不开离知识库最近的RAG(搜索增强)。所以近两年,RAG成了企业级AI落地开始的地方。
成立26年的零售科技公司伯俊科技,做AI转型时,第一个阶段搭建的就是用RAG做的AI工具——AI通识助手。
为了不让这个AI助手“上线即闲置”,伯俊科技中台事业部总监李昊提到,他们调研了整个公司,最后针对四大业务场景来展开功能设计。
一是类似于传统企业知识库问答,主要面向销售端,基于过往企业积累的数据,帮助销售理解公司的规章制度、产品的过往记录以及客户历史情况等;
二是针对后端人员,伯俊科技已经沉淀了包括电商、线下零售、B2B等整个产品知识体系,基于AI小助手的应用,能够让后端人员快速了解对应的知识体系;
三是针对技术能力,伯俊科技则基于已经沉淀的所有不同产品线之间功能差异点,以及其聚焦的客户画像等,可以方便后端同学快速掌握这些核心信息,同样对于交付侧的工作人员,也能够快速上手,为其提升效率;
四则是针对运维同学,伯俊科技通过将客户过往的问题,包括过程中沟通的QA,全部以知识库的形式反哺给运维同学,极大的提升了客户运维的响应时效性,提升客服服务体验。
除此之外,企业也会随着数据能力的深化,慢慢解决更多业务问题。“伯俊科技通过使用OB Cloud来解决了企业知识库沉淀的问题,未来它还会将数据库的能力,逐步延伸至企业文件导购、AI配货能力等企业核心业务上。”
事实上,在企业场景中,想要搭建一个RAG场景,至少需要构建两个层面:
一个是底层的数据库平台,包括向量数据库、文本数据库等,如果往复杂里说,可能还需要地理关系数据库、关系型数据库等支撑,“这就会导致整个数据底座非常复杂,团队的运维成本也会非常高。”OB公有云高级产品专家冯礼说道。
另外,在数据底座之上,还需要一个开发平台,将这些流程串联起来,“很多企业会选择开源产品,或者说是基于LangChain和LlamaIndex开源框架来自己创建,这当中会有大量的集成、调试、二次开发的工作。”
这也就意味着,尽管企业可以通过开源大模型、向量数据库与Agent平台搭建RAG系统,但实际开发过程中,仍面临多重挑战,涉及到多类型文档的智能识别与切分、优化向量数据库索引策略以提升检索效率,以及调试大语言模型提示词以确保生成准确性等。
而OB Cloud之所以能够快速帮伯俊科技沉淀其知识库产品体系,则主要源于其将上述流程统一封装打包至一个产品解决方案中,即OceanBase PowerRAG服务。
OceanBase PowerRAG 服务集成了常见的知识库、文本检索、知识检索等所需要的所有模块化解决方案,形成一站式开箱即用的AI解决方案,帮助开发者精简开发流程,实现开箱即用。
PowerRAG的能力远远不止在文档搜索上,而是能对文档的段落结构/表格/图片采取不同的解析策略,这样才能增强其文档解析能力,构建 AI 可理解的知识源。
基于这些能力,OceanBase PowerRAG已经用在多个企业真实场景中。其中,企业问数场景是比RAG更难做的场景,主要分为三个阶段,包括自然语言处理,NL2SQL,SQL4DATA等。
“OB Cloud目前主要还是在处理自然语言,将其变成RAG化、向量化的这个阶段,未来我们也会把后面两个阶段的能力变成产品,提供给客户使用。”OB公有云事业部解决方案总监戴涛说道。
在智能问数场景中,互联网百货公司in银泰商业打造了智能问数平台,实现业务数据实时溯源与查询解读,支持门店业绩深度归因分析的智能问诊;同时构建了企业内部知识库,员工可通过自然语言交互快速查询公司内部制度文档、服务条款等,大幅提升管理效率。
可以看到,开箱即用RAG产品已经能做不少事情,但它的实现离不开一个更基础的数据底座。
向量能力,构建AI时代的数据底座
企业内部沉淀的大量数据,想要产生价值,需要先对数据进行处理。
“此前我们的业务和数据不能够打通,存在大量结构化和非结构化的数据,需要花费更多精力在如何处理这些数据上,数据处理后也很难再花精力赋能业务。”李昊说道。
事实上,传统数据库更擅长处理结构化数据,“非结构化数据,其实是数据库一直不擅长处理的地方。”OB资深技术专家张易说道。
因此,想要将非结构化数据转化为大模型能够看懂的数据,向量能力则成为了关键。
向量能力主要体现在两个方面:
一个是对非结构化数据的处理上,主要通过向量嵌入(Embedding) 技术,基于深度学习神经网络,提取非结构化数据里的内容和语义,把图片、视频等变成特征向量。该技术能够将原始数据从高维度空间映射到低维度空间,将具有丰富特征的多模态数据转换为多维向量数据。
“而基于这种嵌入模型的方式,将非结构化数据转化为一个数据库能够处理的半结构化数据,可以使数据库更高效。”张易说道。
另外一个核心则在于向量检索能力。随着数据量的不断激增,传统的基于关键字的检索方法,已经无法满足用户对于检索精度和速度的需求。因此,向量检索技术应运而生。
具体来说,向量检索就是在将非结构化数据转化为向量之后,通过使用相似性度量方法来比较它们之间的相似性,进而捕捉数据的深层次语义信息,从而提供更为准确和高效的检索结果。
简单举例,如用户想要查询北京有什么好吃的,向量检索就会自动定位与北京、美食、地理位置、店面等所有与其有相关性的关键词,而不是只给出北京、美食相关内容。
两者相结合的向量能力,构成了数据库的底座能力。但AI时代的数据库,却又不仅局限于向量。
“一般来说,传统的数据库大多都是基于MySQL构建,但对于面向企业生产的数据库,要的不仅仅是一个向量能力,而是一个完整的数据库技术栈能力,包括完备的企业级能力。”张易说道。
因此,基于向量能力,OB Cloud已经构建了AI数据底座的5大核心能力,用张易总结的话来说,就是“多、快、好、省、创”。
多,是指OB Cloud的一体化架构可支持千万、亿级、十亿+不同场景向量处理,VSAG向量索引算法具备TOP吞吐量,在同样召回率0.9下基础性能对比中,OB Cloud性能好于milvus,PG-Vector和ES。
快,主要是面向开发运维工程。
传统向量数据库是基于API来做开发,但这其中面临着需要跨平台,不断重复开发一个新客户端,以及API不能够形象表达一些查询语义等问题。
因此,OB Cloud的一体化架构体系,能够原生支持MySQL的协议的客户端,并通过MySQL协议可以映射到几乎所有的多语言客户端,针对Python或者Java的客户来说,还提供专用的客户端。
好,主要涉及到混合检索和融合查询能力。
在解决海量增长数据问题中,OBCloud引入了HNSW(基于图的近似最近邻搜索算法)+IVF(倒排文件索引方法)混合算法,通过将增量和存量拆分,并将增量索引与全量索引同步的方式,解决高速增长数据摄入问题。
而想要更快地获得准确的数据,TP和向量的结合非常普遍。“但现在行业中对先算标量还是先算向量一直存在争论,主要是会面临丢数据的风险。”张易说道,“但通过将向量算法库跟数据库做深度集成,用户基本就不需要考虑这个问题了。”
另外,想要整体数据的召回率更高,现阶段主要是向量+全文索引的方式,但张易表示,未来可能是向量、全文索引再加上稀疏向量,会让整个召回率更高,而这也是后续OB Cloud研发方向之一。
当然,除向量外,OB Cloud具备完整的数据库能力,包括事务、数据隔离、企业级安全、备份恢复、高可用等,以及完整的工具链体系,包括评估改造、实时迁移、开发管理、运维管理、容灾复制、安全管理、全生命周期、诊断自治等。
省,则主要是降低海量非结构化数据带来的存储成本和性能成本。毕竟,于企业来说,如果挖掘数据的成本要远远大于数据的价值的话,那么这些数据的价值也就一文不值。
“一旦把大量非结构化数据进行向量化,会涉及到存储成本的极大提升,同时大量向量查询也是一个实时行为,企业需要兼顾海量数据的存储成本和实时查询的性能。”戴涛说道。
一方面通过共享存储模式,OB Cloud的存储成本较传统的Shared Nothing架构可降低 1/2 到 1/10。另一方面,近期OB Cloud还引入了RabitQ技术,来解决传统HNSW算法占用内存较多的问题。
最为重要的一点在于,相比于其他开源数据库,OB Cloud的向量能力,包括向量算法都是全部自研。
“业界比较多的向量数据库底层向量算法是基于开源数据库,其对于向量算法的掌控和创新力都没有办法达到基于自研所带来的底气和创新。”张易说道。
根据跑分评测,目前整体OB Cloud的向量性能已达到主流开源数据库的水平。
除上述提到的RAG产品案例之外,OB Cloud还有更大的案例在Agent领域。“OBCloud的一体化架构技术形式非常适合企业里面使用,帮助其构建AI底座,提供混合查询、标量、向量一体化查询,多模态交互等能力,帮助企业更好地处理不同的数据。”戴涛说道。
目前,OB Cloud向量能力已经深入电商零售、互联网服务、物流运输、教育、企业服务等众多行业领域,并在头部企业和创新平台的各类 AI 应用场景下持续验证产品价值。
至此,深度融入向量能力,但又超出向量数据库的OB,已经构建了一个面向AI时代的一体化数据智能底座。
一体化智能数据底座,让AI从概念走向应用
对企业AI规模化的落地,OB建议分三步走:
首先,是先从单场景切入,构建企业0-1的AI能力。比如从企业知识库小切口切入,便于企业选择一些价值链相对比较高,且利润比较短的场景。
其次,当0-1尝鲜之后,则可以进行渐进式扩展,“我们会建议企业从下而上,原因在于,如果企业里业务团队不懂AI,会提出非常大而全的AI需求,就很难将业务IT化和AI化。”戴涛说道。
因此,这一阶段需要拉上业务团队,构建类似于Design Thinking(基于对用户需求理解所做的产品设计方法论)的工作坊,帮助业务团队来找到相关的ID场景,在这一场景完成小规模构建后,把相关的需求返给团队之后,构建出最终的AI应用,实现企业AI落地的1-10建设。
最后,企业基于各个分散的AI业务场景,会形成一个业务中台。这个平台需要包括Agent、RAG一体化数据库等能力,提供给更多的业务人员或轻IT人员,实现短平快的AI创新开发。
“这就是我们一直说要构建10-100的阶段,完成整个业务和IT的双轮驱动,最终从AI使能转变为AI原生。”戴涛说道。
纵观伯俊科技在AI时代的转型,可以很明显看到其整体AI业务落地,是从单一场景逐渐扩展至业务中台,从0到1,到10,再到100的过程。
在AI工具阶段,伯俊科技主要做了AI通识小助手及AI数据实时分析、互动等能力,针对单一的业务场景,去做AI的赋能。而在这一阶段之后,伯俊科技开始将AI能力融合到自身核心业务场景中,其中一个关键抓手,就是AI导购数字员工。
基于现有全国门店缺乏有专业能力导购员等痛点,伯俊科技开发了会员成交大模型,该大模型融合了门店在核心商品库、会员画像及导购与客户沟通话术语料等数据,并最终以AI智能导购员的形式,在线下门店场景中落地应用。
未来,随着越来越多数字员工在更多核心场景的落地,企业也势必会面临着多智能体协同管理的问题。因此,“未来不管是企业有多少个智能体,我们都希望构建一个智慧大脑,即AI的运营全托管,并希望借此打通组织间的壁垒。”李昊说道。
但李昊也坦言,整个AI落地过程中,面临最大的挑战,就是数据的处理和应用。“品牌数据已积累完成,但到底这些数据要怎么让AI去用?哪些数据能用,哪些不能用?哪些数据需要重新来过?这个数据的处理过程相当繁琐。”
也正因此,一个好的数据底座,是能够真正帮企业AI落地到核心业务中的。
在伯俊科技进行企业AI落地过程中,OBCloud的一体化数据库则提供了全流程的支持。
“不管是从一开始的业务适配性,还是业务的语义化、架构的耦合度,以及最终能够贯穿业务的上下游,OB其实都给予了我们大力支持。”李昊说道,“这也就使得我们在整个知识库搭建,及进行大模型业务探索时,更加得心应手。”
在OceanBase副总裁兼公有云事业部总经理尹博学看来,OB Cloud的AI能力具有4点优势:
具备天然的一体化架构,一套数据库支持事务处理(TP)、实时分析(AP)、AI工作负载,用户面向AI无需引入额外技术栈;
多模向量一体化,原生支持向量、标量、空间、文本等多模数据的混合检索,简化AI应用复杂度;
提供开箱即用的RAG服务,0门槛构建现代RAG应用;
Bring AI to Data,一体化架构实现数据的新鲜度与智能的实时性融合。
“我们也希望通过OB Cloud的这4点能力,最终实现Bring AI To Data的目标,即当业务在前端产生的时候,就已经为了我们的AI做好准备。”李昊说道。
而这个过程中,数据库作为数据的存储计算引擎,也正在飞速进化。
尹博学认为,“云数据库与AI天然契合。”
一方面,云数据库的弹性扩展、成本优化、高可用等特性,为AI工作负载提供坚实底座;另一方面,AI对多模态数据的高效调用需求,推动云数据库强化向量检索、多模融合等能力。
与此同时,随着云数据库走向一体化,其和AI的融合,将有助于重塑企业智能生产力。
作为云数据库领域的创新者,OB Cloud不只是“可以支持 AI”,更是已在多个真实业务场景中被企业使用,成为企业AI 应用从 0 到 1 的现代数据底座。也正是凭借着对AI场景的深度适配和多云原生能力,OB Cloud也正逐渐成为企业智能化升级的理想底座。