大模型更需要大数据，星环科技的跃升之路

针对AI大模型，又一家中国公司果断出手了！

在5月26日上海举行的“向星力·未来数据技术峰会”（FDTC）上，星环科技创始人、CEO孙元浩亲自宣布了业界首创的金融大模型“无涯”、大数据分析大模型SoLar“求索”等行业大模型的诞生。

“三化”：

加速数智化转型的必由之路

其实从2022年底ChatGPT出现至今，AI应用便开启了新一轮加速。AI大模型引发了一场前所未有的“比拼”，尤其是中国厂商争先恐后推出自己的或通用或面向垂直领域的大模型。

对此，中金计算机首席分析师、研究部副总经理于钟海形象地比喻说，未来的大模型市场会像一个冰激凌蛋筒，上面的几个冰激凌球代表面向金融、医疗、教育、政务等几个关键行业领域的垂类大模型。因为这些行业的场景足够大、足够深，能够产生强大的激励，促进初创企业、行业巨头结合自身及行业的Know-how开发出垂类大模型。而下面的蛋筒则代表通用的大模型。“或许中国的每个巨头企业都会拥有自己的大模型，但最后所有人经常用的会像中国的公有云一样，最多不超过三个。”于钟海如是说。

从市场和应用的发展趋势看，今天百花齐放的AI大模型市场最终将走向收敛，但是由大模型激发的AI应用无疑会成燎原之势，无所不及，无处不在。在这样的市场大势下，AI普惠化将是一个长久的命题。作为AI生态中的一份子，无论是AI大模型的开发者，还是为大模型落地应用提供支撑的云厂商、大数据厂商等，都必须找准自己的定位。以金字塔为例，最顶端是少数的大模型的开发者和拥有者，中间层数量众多的是为大模型提供各种资源和能力支持的方案和工具厂商及服务商，最下面也是数量最多的则是千行百业使用大模型的用户。中间层的方案和工具厂商及服务商起到的是关键的承上启下的作用，既要为大模型提供足够的算力、数据，又要面向多样化的行业需求，提供场景化的应用方案支持。

星环科技显然是定位于中间层的大数据厂商。一方面，在大模型开发方面，星环科技会“适可而止”，将专注于行业大模型，比如“无涯”“求索”等；另一方面，孙元浩在回答记者提问时也明确表示，星环科技主要是将大模型作为对现有产品和业务的增强，而不是借此开辟新的赛道，比如通过提供多年来持续完善的LLMOps工具，帮助客户训练大模型。在引入大模型后，星环科技现有的业务不会有太大变化。

更进一步，星环科技提出了将自身的创新技术与业务场景深度融合，致力于实现数据处理的“智能化、多模态、平民化”的“三化”目标。对于星环科技来说，“三化”既是目标，又是赋能工具；对于行业用户来说，“三化”则是AI大模型时代企业加速实现数智化转型升级的必由之路。

智能化：

人人都能拥有自己的专属大模型

“无涯”、SoLar“求索”行业大模型无疑是星环科技在大模型时代攻城拔寨的“桥头堡”。

首先来看“无涯”，它是一款面向金融量化领域、超大规模参数量的生成式大语言模型，基于星环科技的图数据库、深度图推理算法等，使用了上百万的专业金融语料。目前，“无涯”构建了包括政策、舆情、ESG、风险、量价、产业链等在内的六类大模型基础因子集，擅长处理金融量化领域的各类问题，如政策和研报分析，对股票、债券、基金、商品等各类市场事件进行全面复盘、传播和推演，还能生成另类的策略因子集合，构建立体的归因解释体系等。

孙元浩介绍说：“之所以率先推出面向金融领域的大模型，因为我们在金融行业拥有多年的技术和经验积累，包括丰富的资讯来源、大量标注好的语料，并且做过量化因子的开发，同时发挥自身独特的技术优势，将多模感知、事件驱动、深度图计算相结合，从时间和空间、深度和广度等多个方面扩展投资研究的视角，实现了全新的智能量化投研新范式。‘无涯’不仅具有极强的理解能力，能够执行特定的金融任务，而且基于量化策略，可以直接用来做示范交易，是现在就能够真正落地应用的大模型。”

再来看大数据分析大模型SoLar“求索”，就像它的名字一样，目前它还在持续完善、优化之中。星环科技基于在SQL编辑器方面的多年经验，并结合大语言模型推出的SoLar“求索”，无愧为数据查询和分析的智能副手，为数据工程师、数据科学和业务人员提供了更好的使用体验。由于SoLar“求索”能够使用自然语言描述涉及多种数据模型的复杂业务需求，还可借助星环大数据平台特有的“多模型”技术，对不同模态（比如图数据、文本数据、结构化数据）的数据进行关联分析和展示，即使是非专业用户在不需要学习和掌握数据库编程语言的前提下，也能通过自然语言自由地按需查询数据。

孙元浩表示，领域大模型最直接的好处是能够提升数据处理的自动化程度。星环科技的主业就是大数据平台的开发，所以拥有大量的测试集，而且自己写编译器，生成SQL。这些最核心的技术优势与大模型碰撞出的火花，就产生了让数据分析平台更加智能化的SoLar“求索”。

“无涯”、SoLar“求索”的推出，其实是星环科技顺势而为：一是，因为这两者与星环科技的主营业务强相关；二是，无论是面向金融客户，还是在大数据分析领域，星环科技都有多年的技术开发和实践经验，这些积累在大模型的“催化”下，释放出了全部潜能；三是，从客户的需求来看，确实比较急迫地想尝试构建自己的大模型，改进现有应用，而星环科技为这些客户打造了成功的样板，生动阐释了打造自己专属大模型的可能性。

但就像孙元浩所说，大模型只是为了增强星环科技现有的产品，星环科技的主营业务还是“大数据基础软件”，而大模型只是一个新的加速引擎。为了让这个加速引擎能够被客户所用，星环科技致力于提供一系列的支撑工具，并乐此不疲。

比如，星环科技为客户提供了大模型训练工具Sophon LLMOps，帮助企业构建自己的行业大模型。作为一个机器学习模型全生命周期管理的工具平台，Sophon LLMOps针对大语言模型及其衍生数据、模型、应用问题，提供了相应的增强，形成了强大的LLMOps工具链，包括样本仓库能力、模型运维管理能力、大语言模型和其他任务的编排和调度和上线能力等。

归纳来说，星环Sophon LLMOps主要解决了客户的三个核心痛点问题：提供一站式工具链，帮助客户借助通用大语言模型进行训练、微调，从而得到满足自身业务需求的领域大语言模型；帮助客户将原型的大语言模型应用，成功投入到实际的生产应用中；帮助客户运营，使得应用中的大语言模型和大模型能够持续提升。

“当前，基础大模型与行业落地应用之间的鸿沟非常大，是必须突破的行业壁垒。”孙元浩表示，“我们的基本策略是提供一系列工具，让我们的客户、合作伙伴，根据其自身的行业知识和积累，能够更加快速地打造出自己的模型，并且在上面开发自己的应用。我们看到，金融行业的一些头部企业已经在快速地落地大模型应用。”

多模态：

人人都需要一个个性化AI助理

孙元浩表示，进入大模型时代，数据处理将更快地从单一模态向多模态进化，企业数据分析将进入新的次元。多模态就是研究如何将文本、图像、视频、音频，甚至是传感器数据，乃至结构化的数据进行融合、优化处理。

向量数据库顾名思义，就是专门用来存储和查询向量的数据库，其存储的向量就来自于对文本、语音、图像、视频等多模态信息的向量化。向量数据库不仅能够完成添加、读取查询、更新、删除等基本操作，还能对向量数据进行更快速的相似性搜索，其商业价值显著提升。东北证券发布的《向量数据库，AI时代的Killer App》报告指出，AI化的本质就是向量化。向量数据库可以使得大模型保持准实时性，并提高大模型的适用性，从而使得大模型能够动态调整。向量数据库将为AI的腾飞插上翅膀。

顺应这一趋势，星环科技在本次大会上宣布推出自研的向量数据库Transwarp Hippo，以扩展大语言模型的时间和空间维度。对于用户来说，使用星环科技的向量数据库+分布式图数据库，可以构建基于大模型的应用，从而拥有自己个性化的AI助理。

Transwarp Hippo作为一款企业级云原生分布式向量数据库，支持存储、索引以及管理海量的向量式数据集，能够高效地解决向量相似度检索以及高密度向量聚类等问题。与开源的向量数据库不同，星环自研的Transwarp Hippo具备高可用、高性能、易拓展等特点，支持多种向量搜索索引，且支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能，能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等需求。

“我们发现，在应用大模型时，将向量数据库与图数据库相结合是一条事半功倍的捷径。”孙元浩表示，“在实际应用中，仅依靠一个向量数据库是远远不够的，需要各种模型的数据库。因此，在技术路线的选择上，我们希望通过一个平台，支持尽量多的模型，这是刚需。”

除了最新的向量数据库以外，星环科技在本次大会上还推出了多款数据库新品，包括面向图智能、业务分析的多模型企业级分布式图数据库StellarDB 5.0，面向多元场景的高性能分布式时序数据库TimeLyre 9.1，以及时空数据库Spacture等。

大模型的出现将对数据库未来的发展带来哪些影响呢？数据库作为大数据的关键支撑因素，在大模型大行其道的今天，像LLMOps、DataOps等都需要对数据进行有效整理，所以对数据库的需求会显著增加。尤其是向量数据库，已经成为业界投资的一个热点。星环科技也是从三四年前就开始了向量数据库的研发，Transwarp Hippo的推出可谓厚积薄发。另外，孙元浩特别强调了支持多模态数据的重要性。星环科技一直在倡导并大力推动多模型数据库的应用，其产品原来就可以支持10种模型，现在又增加了新的模型，能够支持更多的非结构化数据存储。

从数据库技术的发展来看，现在数据库的存放都采用SQL接口，需要专业的IT人员进行数据分析。由于AI大模型的引入，未来的数据库或许可以提供一个自然语言助理，非IT人员也可以通过自然语言进行数据的操作与分析。这对于数据库应用将是一个极大的推动。

平民化：

人人都能成为数据科学家

所谓数据处理平民化，就是非IT专业人员无须借助复杂的工具，也能快速处理数据。这其实是AI演进的一个极大的驱动力。在形形色色的通用大模型和垂类大模型推出后，如何将这些大模型与更多的行业业务场景相结合，有效促进业务的创新成为关键任务。星环科技希望通过快速的产品创新、商业创新和生态创新，真正实现数据处理的平民化，也即AI的普惠化。

从产品层面看，星环科技的大数据基础平台TDH，能够打破湖仓集的边界，让更多人可以访问实时+历史/原始+加工后的数据。比如，星环大数据基础平台TDH 9.3推出了新一代湖仓集存储格式Holodesk，一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求，避免数据冗余，减少数据流转，提升业务综合性能与时效性；TDH 9.3还实现了多模型统一架构迭代升级，并全新发布向量模型存储，10大存储引擎共支持11种模型数据统一存储管理，支持统一查询处理语言完成跨模型数据流转与关联分析，业务开发更加便捷。

星环数据云平台TDC升级到了3.2。TDC 3.2支持星环TDH底座就地升级到星环TDC，利用云化统一管理资源池，实现大数据系统产品、计算、存储资源池化，提高调度资源的灵活性和利用率.

为了让数据流通更便利、更安全、更可控，星环科技还推出了数据要素流通产品Navier 3.1。

从实现国产化替代的角度看，孙元浩表示：“在国产大数据技术栈方面，通过十多年的不断打磨，我们已经做得比较成熟，在技术上已经可以完美地替代国外的大数据产品，并且在功能和性能上也基本领先国外产品接近一代。如今，国产大数据平台的替代步伐正不断加快，星环科技推出的众多创新产品，能够替换国外的商业和开源大数据平台、数据库等基础软件产品，并且拥有大量成功的应用案例，为用户创造了新的价值，加速了数据处理的平民化。”

比如，星环分布式分析型数据库ArgoDB强化了实时分析能力，构建安全高效的国产化多模引擎，一站式满足用户数据仓库、数据集市、实时数仓、OLAP、AETP、联邦计算等需求，可以在批处理和OLAP、Ad hoc分析等场景中替代Oracle/DB2/TD/SAP HANA等国外产品；星环分布式图数据库StellarDB可以在图查询、图分析等场景替代开源图数据库Neo4j；星环科技自研的高性能时序数据库TimeLyre能够替代开源时序数据库InfluxDB，解决开源时序数据库不支持复杂分析，服务极其不稳定，以及缺乏安全可控性等问题。

从生态方面看，星环科技始终秉承“平台+生态”的发展理念，与软件开发商、硬件开发商、系统集成商等生态伙伴通力合作，打造大数据基础软件产品应用的生态体系，以提升竞争力。目前，星环科技拥有超过600家生态合作伙伴，涵盖系统集成、咨询交付、服务、ISV及行业应用等。

英伟达CEO黄仁勋在最近举行的Computex论坛上表示，人工智能将使所有人只需对着电脑说话，就能变身程序员。在大模型的带动和促进下，人工智能应用的普惠化必将加速到来。在智能数据分析领域，人人都成为数据科学家将不再是一句空话。

大模型更需要大数据，星环科技的跃升之路

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)