文|白 鸽
编|王一粟
“AI for Science的底层逻辑,与现在大语言模型的训练逻辑并不一样。”深势科技技术总监陆金谭直言,当前人工智能在科学研究领域与大语言模型在其他行业中应用的逻辑并不相同。
业内皆知,大语言模型训练依赖于高质量数据“喂养”,数据越多,大语言模型能力越强。但科学研究的一些特定领域,数据量相对稀少。比如某些特定类型的蛋白质结构,可能需要数年时间才能获得几百条高质量的实验数据。
这也就意味着,AI在科研领域的应用,需要用比较少的数据,来达到更好的模型效果。
那么,AI究竟如何改变科学?又是如何在其中跑通商业模式?作为AI for Science的代表企业之一,深势科技则给出了自己的思考和解法。
在传统科学计算中,如果想要通过分子和原子的结构信息去预测其物理性质,通常需要结合实际问题进行微观计算。当前业界在实现这种跨尺度的计算能力方面仍然较为欠缺,更多依赖经验判断和实验验证。
与此同时,计算体系规模的扩大,传统科学计算的计算量呈指数级增长,经常是上万,甚至是上亿原子规模体系的计算量,如果完全依赖常规物理模型进行计算,整体的计算时间周期可能会非常长。
“深势科技能够让模型产出接近于物理模型精度的计算效果,同时大大提升计算性能。”陆金谭说道,“我们通过AI手段去拟合这些物理方法,把之前可能需要大计算量的事情变得更快。”
以图像识别为例,其核心在于分析图片的像素信息,通过引入卷积神经网络,能够提取图片中的局部特征,将原始图片分解为不同的特征图,并通过特征组合进行近似求解,这其实是一个降维分析。
事实上,AI在科学领域也属于降维应用,通过模型强大能力,尤其是在涉及跨尺度计算的早期阶段,通过其强大的建模能力降低计算复杂度。同时,基于多模态大模型能力,还可以实现对分子结构、物理性质、实验数据等多种类型的数据进行多维度的分析和预测。
比如在药物发现过程中,通常首先需要对蛋白质结构和靶点进行分析,接着在数十万甚至上百万的化合物库中,筛选出与靶点具有高亲和力的候选化合物。通常会进行多维度的评估,包括亲和力分析、药物化学性质(如毒性、吸收、代谢等特性)的预测和评估。
“在AI for Science领域,大模型能够支持跨尺度计算的关键在于其庞大的参数规模和强大的泛化能力。模型的巨大参数量使其能够捕捉复杂的物理、化学和生物现象,而强泛化能力则帮助模型在不同领域的科学问题间实现灵活应用。”陆金谭表示,“基础模型可以基于药物的微观结构预测其相关性质。当将该模型迁移应用到材料领域时,它同样能够通过分析材料的微观结构,预测材料在不同温度和压强下的稳定性及其他物理状态。”
因此,深势科技对AI for Science里面基础通用模型的理解,更多的在于有一套基础预训练模型,这个模型通过微调可以被应用到各个工业领域进行问题求解。
深势科技目前研究的几个基础模型,可以在有限数据增训下,仍然能获得较好的结果,后续可以再基于获得的更高质量的数据去进一步优化和修正。在这个模型体系下,让AI去学习基础的科学原理本身,通过少量的领域数据进行增训就已经能得到不错的效果,这跟大语言模型稍有区别。
陆金谭对光锥智能说道,“科学计算领域数据来源并不广泛,公用数据集并不多,所以我们现在很大一部分工作,是如何在小数据集基础上,让模型的训练效果越来越好。”
过去两年,深势科技也成功推出了一系列行业大模型,如DPA分子模拟大模型、Uni-Mol 3D分子构象大模型、Uni-Fold蛋白折叠大模型、Uni-RNA核酸结构大模型、Uni-Dock高性能药物分子对接引擎,以及Uni-SMART科学文献多模态大语言模型等。
据陆金谭表示,目前深势科技在材料领域和药物领域一共有上百个模型,这些模型也已经成功集成到深势科技的产品平台中。与此同时,深势科技也与行业中领先的数十家药企达成了战略合作,2023年也实现商业化的突破,营收过亿。
目前,深势科技的业务已经覆盖高校智慧教育、生物医药研发,以及电池新材料。
不过,按照现阶段AI for Science的算法分级,整体发展仍处于L2阶段,即接近实验精度,更多仍是以人为本,通过模型计算来辅助人类,减轻压力。
到了L3阶段,AI则能够直接给出结果,在某些场景中,则可以直接替代掉人类实验。
想要从L2迈入L3,“主要的难点在于各环节精度需要达到一定的高度,同时各环节中的算法如何进行整合,也是一大挑战。”陆金谭如此说道。
面向未来,陆金谭认为,AI for Science市场空间足够大,不管是教育科研、生物医药,还是电池材料,AI的加入至少在实验层面,就能够实际的解决很多根本性的问题,为赋能产业、前沿探索等提供更多的思路和切入点。
以下为光锥智能与深势科技技术总监陆金谭详细对话内容(经光锥智能删改编辑):
Q:大模型改变了自然语言处理、改变了视频、图片生成,是怎么改变科学的?
A:大语言模型在挖掘文献信息、专利信息等领域已开始应用,我们将其称为文献大模型,我们在这个领域也有了一些研究成果,除了用它挖掘比较专业的化合物信息外,还会做一些图片、图表解读等这种多模态的应用。
在传统的科学计算中,经常会遇到的问题是从微观到宏观尺度,有不同的物理模型进行问题求解,但在一些跨尺度的计算场景中能力还比较欠缺。比如我们通过分子原子的结构信息,想要去预测它的宏观性质,就需要跨尺度建模的能力。
人工智能包括大模型,可以做到跨尺度建模,通过对这些物理模型的学习,再应用到具体的问题中,就能够很好的解决这些问题。
我们通常需要进行大通量的计算,经常是上万甚至是上亿原子规模体系的计算,如果基于物理模型计算,时间周期会比较长。深势科技这边做的事情,就是能够让模型产出接近于物理模型精度的计算效果,同时能够大大提升计算性能。
Q:上亿原子体系规模的计算,如何换算到大模型领域的计算,大概是什么样的计算量?
A:在微观尺度下,两个原子之间的相互作用可以通过物理模型来分析,例如通过经典力学或量子力学方程,计算它们之间的相互作用力和运动轨迹。这时,计算只需要考虑两个原子的相互影响,问题相对简单。然而,随着系统中的原子数量增加,情况变得更加复杂。例如,当引入第三个原子时,除了考虑每个原子之间的两两相互作用,还要分析三者之间的多体效应。这时,原子之间的相互作用和轨迹不仅取决于两个原子,而是由整个系统的状态共同决定,计算量呈非线性增长。科学家们通常会引入近似算法,如密度泛函理论或分子动力学模拟,来有效处理不同尺度下的计算。
而我们AI在早期做的事情,其实是通过AI的手段去拟合这些物理方程,提高计算性能。可以类比图像识别,其核心的点在于它去分析各种像素,我们加入卷积神经网络后,它会把一张图片拆成一个个特征图片,然后进行近似求解,这其实是一个降维的分析。我们人工智能在科学计算领域早期做的,也可以看作是一个降维的动作,即把之前可能需要大计算量的事情变得更快。
Q:传统AI时候的计算方式和大模型来了之后,中间有什么区别?
A:大模型的定义相对模糊,一般以参数量为指标,参数越多,计算量越大。对我们来说,更多的是提供多尺度的计算。我们目前的预训练模型 Uni-Mol,基于分子和原子的三维结构,预测相关物理性质,建立构效关系,直接求解,过去的做法往往依赖实验和经验来预测。这种方法结合了不同尺度上的计算,为材料科学等领域提供了全新的计算手段。
我们对待大模型一般会更强调模型泛化能力。在AI for Science领域,是相对通用的。比如基础模型,可以基于微观结构去预测药物相关的一些性质,将这个模型做一些迁移,则可以应用到材料领域,但关心的性质可能就不是药化性质,而是在不同温度不同压强下它的状态,所以我们对AI for Science里面基础通用模型的理解更多是一套基础的预训练模型,这个模型通过微调可以被应用到各个工业领域进行问题求解。
Q:多模态在其中主要起到哪些作用?
A:涉及将不同类型的数据,如分子结构、物理性质、实验数据等,结合起来进行综合分析。比如在药物发现过程中,通常首先需要对蛋白质结构和靶点进行分析,接着在几十万甚至上百万的化合物库中,筛选出与靶点具有高亲和度的化合物,而在筛选的过程中,可能包含亲和度分析、药化性质分析,是否有毒、是否利于人体吸收等,可能是有多个维度的分析。所以想要达到一个比较好的筛选效果,是需要综合多个角度、多种性质去分析。
常见的图片、视频等的多模态问题,可能更贴近我们在文献数据挖掘中的多模态应用,比如在论文中需要不仅读取论文中的文字信息,还包括图片信息,需要对图片信息进行深度挖掘,再去跟文字信息进行整合,最后输出结果。在文献中,我们也会应用这种常见的多模态能力。
Q:AI for Science领域对模型数据的需求到底有多大?
A:不同领域不尽相同,当然越多越好,这里也有获取难度的问题。举个例子,在生物医药领域的细分应用和电池领域的细分应用,数据获取难度就不一样,研发和验证周期长的行业,数据产出会相对少,数据的绝对数量就有限。像某些特定类型的蛋白质结构,可能几年才有几百条,但在其他领域,数据肯定不止这些。
但基础物理模型能够生成更多数据,我们目前研究的几个基础模型,可以在有限数据训练下,仍然能获得较好的结果,后续可以再基于获得的更高质量的数据去优化和修正。在我们这个模型体系下,让AI去学习基础的科学原理本身,通过少量的领域数据进行增训就已经能得到不错的效果,这跟大语言模型稍有区别。
Q:如何让AI学习基础科学逻辑,然后去做解决具体的应用难题?
A:一般是通过一些物理模型去直接进行运算,然后产出的结果数据进行训练,之后去模拟物理模型。
Q:基础大模型到各垂类大模型之间的关系是什么样的?基础大模型是自己训练,还是使用第三方开源大模型?
A:不同场景不太一样,如果指的是大语言模型,更多应用在文献解读,比如论文解读。基本的应用对于单篇论文解读,出于成本考虑,会用到一些通用大模型帮我解读论文。如果说要去进行多篇论文的解读,甚至是在我们的大的论文库里面进行整体的检索,也包括专利的检索和分析的时候,那我们会用到自研的文献模型去进行更细致的论文解读。
所以我们还是奔着用户的产品去做,可能看哪个模型更适合我们的产品,也会出于成本的考虑,去做出选择。
现在很多模型我们更多称之为是预训练模型,比如我们去年发布的那个DPA,就是计算不同元素原子间势函数的一套预训练模型,前段时间也开放OpenLAM大原子模型计划,希望能够通过去发动一些开源的力量,能够一起去贡献和共享数据,把模型训练的更成熟。
Q:深势科技现在模型数量大概有多少?
A:我们现在材料领域和药物领域加起来有上百个模型。
Q:能否分享一下深势科技在AI医药领域最新的研发进展?
A:医药这块其实我们现在主要关注于临床前的研究,覆盖了几乎所有临床前的计算场景,比如从早期的靶点发现、蛋白质的结构分析,到靶点分析、分子筛选、亲和度的分析,再到性质的预测等等,这一系列的环节里面包含了很多这样的计算手段,我们现在都有落地的算法。
结合医药场景,我们把这些所有的算法包装成一个产品,就是我们的药物设计平台Hermite,我们现在基本跟国内的头部的前50家药企业在不同的领域都有合作,主要涉及三个方面,一个是biotech(生物科技),一个是CRO(临床研究机构),一个pharma(制药公司),都有各自代表的企业。
上周我们刚与国内一家上市公司-东阳光签订合作,它是做流感药奥司他韦的企业,也是刚刚拿到了美国三个第一的认证,我们接下来会和他们在靶点相关业务进行合作。
除了像东阳光这种比较典型的生物医药领域的企业之外,我们其实还跟很多在做药物研发的科研机构和高校进行合作,比如跟华西医科大、湘雅医院和医学院等都有合作。
Q:我们现在的产品其实可以直接用浏览器就能够使用,整体部署也很轻量化,所有的核心产品部署方式都是这样吗?
A:是的,我们一般线上在执行的,大多数是AI推理工作,训练工作通常离线完成,所以数据量传输没有那么大,也会有小量训练场景,更多是基于预训练模型的微调,它也是通过小批量的数据就可以进行的,数据传输压力也较小。轻量化部署并不是我们用到的算力不够多,系统背后是调用了混合云、HPC算力的,只不过给用户包装成了浏览器访问。如果是一些私有化的场景,也需要我们把这套背后的算力系统进行相关部署,在SaaS上面不需要。
一般大型企业的话,都是要私有化的。因为他们对数据隐私要求特别的高,一些类似教学的场景,或者是一些研究所的场景的话,可能在某一个课题当中就临时用一下,不需要私有化部署。
Q:与目前合作企业实际项目进展情况如何?具体进行到什么阶段?
A:我们跟药企的合作主要是计算环节,公司不做药物生产,所以不参与药企的药物开发环节。
我们基本上算是全链路负载,我们现在也在尝试一些新的领域和探索,比如将软件整合到偏硬件研发的自动化实验室中,共同服务好更多的企业,因为药企的需求还是蛮多蛮复杂的。
然后从营收上来说,我们去年的营收破一个亿。
我们跟药企的合作的商业模式有两种形式,一种是卖软件,另外一种是联合研发。
很多大企业会本地化部署,自己也能养得起团队,能够有资金足够支撑购买软件费用,但还有一部分可能中型或者是新型创新型药企,缺少先进生产工具,也缺少对应的人才来支撑其使用这些工具,所以会选择跟我们联合研发,我们能够帮助他们做更多的计算,其中也因为涉及到数据和信息安全的事情,所以双方的结合就特别紧密。
但很多大的药企,具备足够的资金、人才实力,甚至希望我们再给他们提供SaaS的同时,能给他做一些定制化的服务。
Q:我看到目前的几个算法分级,非常像自动驾驶的五个分级,目前我们在L2阶段能达到一种什么状态了?可以多大比例上,替代此前的实验模式?您可以举一个具体场景的案例说明
A:L2的场景,我们更多是叫接近实验精度,更多还是以人为本,计算去辅助人类,减轻实验压力。因为药物设计里,不同体系差距比较大,我们在部分体系上都已经能够达到接近实验的精度。所以也不是说用户完全可以不用做实验,而是我可以帮助用户做更多基础的事情,比如分子筛选,它可能是100万的药物化合物,通过AI可以帮用户筛选掉几十万,最后可能剩下的,需要科研人员再进行实验验证,实验量级会大大减少。
Q:从L2迈到L3的难点是什么?
A:我对这个L3的理解是AI能够直接给出结果,相当于在某些场景,可以直接替代掉人类实验。到L3的难度,主要在于一个是各环节精度需要达到一定高度,另外其中涉及算法特别多,各个算法之间的整合也是一个难点。对于算法的整合,其实类似于一套完整的工作流体系,而这个体系是能够不断自我回溯,自我优化的。
Q:从过去到现在在整体的技术上是否有一些迭代?以及目前模型的发展上是否会遇到一些瓶颈?
A:目前我们主要基于数据在各个算法上不断迭代,尤其是在用户常用的产品上,算法迭代更快一些,像我们的DPA产品,已经从1代升级到2代,升级的能力在于,1代能够支持单一领域的预训练,2代则能够根据不同的标注方式的数据集,同时进行并行训练。
瓶颈主要来源于数据,科学计算领域数据来源并不广泛,公用数据集没有很多,所以我们现在很大一部分工作,是如何在小数据集基础上,让模型的训练效果越来越好。
另外,还有一个额外需要注意的,就是可解释性问题,因为科学计算要求比较严谨,对可解释性要求更高,我们现在通过暴露参数、平移的路径等方式,来尽量增强模型的可解释性。
Q:如何解决数据稀少问题?
A:在AI for Science领域,不管是材料领域,还是药物领域,最基础微观层面的物理原理是一致的,所以好处是,某些材料领域的数据可以直接复用到医药领域,比如DPA 2就能基于不同标准体系下给到的数据,帮助用户训练出一个统一的模型。然后将这套模型具体应用到行业中时,再拿少量数据进行微调,就可以进行使用。
在ToC市场中我们还没有涉及,但我们这套体系已经覆盖了一些教学场景。我们有一个教学研用一体化的科研平台,现在主要面对的客户是偏高校,或者是偏C端的一些用户。针对高校,我们这边会有老师类似实训平台,从整个教学到学生上课,再到使用,甚至是研究成果的落地,这个平台都可以支持。
Q:AI for Science未来市场发展空间如何?
A:市场空间我觉得足够大。不管是科研,还是医药、材料,AI的加入至少在实验这个层面上,就能够实际的解决问题,帮助科研人员提升实验效果,减轻实验负担。
从整个客户接受程度来说,于我们而言很多场景中有一部分成本则是在于教育用户,比如在药物领域,我们跟客户都是建立长期合作关系,因为需要陪着客户走完一整个验证周期。
相比较来说,材料领域会快很多,比如电池的研发周期就挺快的,电解液的配比如果用AI预测出效果的话,很够就能够进行制备验证。
从国家层面,科技部会同自然科学基金委启动了Al for Science专项部署工作。这也进一步说明了从社会经济层面到国家宏观政策都是看好和大力支持的,这块肯定是一个未来的方向,毋庸置疑。
Q:AI for Science现在还是偏早期的阶段,未来3年内会发展到什么阶段?
A:我觉得至少所有的客户会对这件事有一个统一的认知。现在大家已经开始积极拥抱AI,对AI的理解更上一层。所有各行业都不会对这个词感觉到陌生或者排斥,有一个比较积极的态度。之后就是我们跟客户怎么建立类似共创的合作关系,毕竟这个行业属于数据敏感型行业。在三年节点上,也希望能够帮客户有一些实际的落地场景出来。
其实我觉得如果说能够把那个价值点稍微考量的更清楚,客户的接受度还是蛮高的,因为整体上来讲,现在无论是药企还是刚才讲的新能源,大家也越来越重视创新投入。我们也是希望能够助力整个科研范式创新,包括科研的基础设施,以及上层各个场景,通过我们这套科研平台能够能够连通起来,然后去赋能各个行业。