十年后,国内云厂商又打起来了!
近一个月,国内云厂商掀起了新一轮的大模型降价潮。这意味着AI竞争已经不仅仅是一场军备技术竞赛这么简单,各头部厂商也在考虑如何赚钱了。
在这场价格战中,包括火山引擎、阿里,还有智谱AI、面壁智能这样的明星创业团队都卷了进来。各家看似是在降价,其实是想通过比低价,快速抢占市场,从而实现商业化的快速落地。
在众人看来,可能头部大厂最具降价的底气和实力,因为大厂的业务比较多,就算AI业务亏钱,也可通过其他业务来弥齐,但有关大模型价格战的发起人却是明星创业团队——智谱AI。
5月11日,智谱AI大模型开放平台上线了新的价格体系,新注册用户获得额度从500万tokens 提升至2500万tokens,并且个人版 GLM-3Turbo模型产品的调用价格从5元/百万tokens降低至1元 / 百万tokens,足足降了5倍。但这还不够,GLM-3 Turbo Batch 批处理 API也便宜了50%,价格为1元 /200万tokens。
4天后,火山引擎放出一记重弹,宣布豆包Pro 32k模型定价是0.8厘/千tokens,这个价格比行业降低了99.3%,此外,豆包Pro 128k模型定价是5厘钱/千tokens。与行业模型比,价格足足降低了95.8%。
这则消息一经放出,整个AI圈都不淡定了。有人称,火山引擎将大模型带入到了“厘时代”。
我们算一笔账,以主力模型32k窗口为例,1块钱可以从GPT买到2400个token,如果选择国内模型,大概能得到8000多个token。如果用开源Llama自己搭建,大概可以获得3万个token。但通过豆包模型,1块钱就能获得125万个token。这是什么概念?相信《三国演义》很多人都读过,共计75万字,换算过来,也就是1块钱能处理3本《三国演义》的文字量。
与其他大模型比起来,火山引擎简直是白菜价,几乎等于不要钱。可以说,火山引擎此次降价,将大模型价格战推向了高潮。
火山引擎发布会后的两天,腾讯集团高级执行副总裁、云与智慧产业事业群CEO 汤道生在腾讯云生成式AI产业应用峰会上介绍了混元大模型的技术、性能、安全、使用门槛低等特点,虽然没有公开介绍价格。但据腾讯云官网显示,混元大模型可以为首次使用者提供10万tokens的文本生成模型免费体验额度,有效期为1年。而在tokens资源包的价格方面,窗口尺寸为32K的hunyuan-standard模型和hunyuan-pro模型,它们的模型推理输入价格分别为0.0069元/千tokens和0.069元/千tokens,两者均为刊例价的6.9折。
与此前比,价格明显降低了。据腾讯云官网一份更新于5月14日的计费信息显示,混元大模型标准版(hunyuan-standard的前身)和高级版(hunyuan-pro的前身)此前的模型推理输入价格分别为0.012元/千tokens和0.12元/千tokens。
虽然几家大厂中,阿里云的降价策略还不明显,但早在今年2月29日,其就释放出一个降价的信号,堪称阿里云史上力度最大的降价,本次降价涉及100多款产品、500多个产品规格。其中,云服务器ECS最高降36%、对象存储OSS最高降55%、云数据库RDS最高降40%,而这三项都是用户使用频率最高的产品。
从阿里云的降价清单中不难看出,降价的主力是传统云计算产品,虽然不涉及大模型,诸如GPU的AI训练和推理算力。但云和大模型的发展是相辅相成的,由此可以推断,在大模型这波价格战中,未来阿里云甚至更多大模型厂商很可能会加入进来,只不过各家的节奏不同。
反观过去一年OpenAI的动作,降价似乎一直是其主线任务。自去年以来,OpenAI已经进行了4次降价。在刚刚结束的春季发布会上,OpenAI宣布了其最新模型GPT-4o,不仅性能有大幅提升,价格也下调了50%。
有人难免发问:大模型本就是一个高投入、低产出的行业,为什么要打价格战?
从去年下半年开始,大模型已经开始从“卷大模型技术”向“卷大模型应用”转变。2024 年,商业化、落地应用将成为大模型公司的主旋律。
最新的《中国大模型中标项目监测报告》显示,今年 1-4 月,可统计到的大模型相关中标金额已达到 2023 年全年披露金额的 77% 左右,涉及政务、金融、运营商、能源、教科、交通等各行各业,表明企业对大模型的应用需求正快速增长。
原因有二。一是,大模型研发成本越来越高。众所周知,算力一直是国产大模型发展的掣肘。一方面,目前全球的算力技术,美国占据了全球近9成的算力市场份额,几乎被其垄断。相比之下,中国算力荒的现象越来越严峻。
据相关数据,中国目前的算力需求量约为每年1.5亿台的服务器,而中国的算力供给量仅为每年3000万台的服务器,缺口达到了1.2亿台,占到了全球算力缺口的80%。与之而来的是,算力租赁服务的水涨船高。其中,并济科技、中贝通信、汇纳科技等公司宣布算力服务收费大幅上涨,导致大模型研发成本进一步提升。
在巨大的成本压力下,大模型厂商不得不加紧寻找一条商业化之路。
二是,大模型技术已经卷的差不多了,通用模型具备的是通识能力,是不能解决特定行业特定场景的实际问题的,只有一项技术被成功大规模商用才是真正的成功,显然,经过一年的技术比拼,已经到了验证的阶段。
为了加快大模型的商业化落地,国内各企业纷纷行动起来。目前大模型的商业化落地大致有两种路径:一是API调用,二是,私有化部署。
API调用是最常见的落地方式。智谱AI自研的第四代基座大模型 GLM-4的调用价格仍为0.1元/千 tokens,百万tokens的价格为100元,通义千问相对低,但qwen-72b-chat的调用价格也在0.02元/千tokens,OpenAI的GPT-4 Turbo 每100万tokens输入/输出价格分别是10/30美元。
从短期来看,虽然成本不高,但对于需求量较大的用户和行业来说,就显得不是很友好了。
而私有化部署就更贵了。截至目前,国内没有一家厂商披露具体的大模型训练成本,但从多位行业人士口中得出,大模型的研发成本远比想象中高的多,动辄成千上百万,甚至需要以“亿”来计算。
华为大模型负责人田奇曾提到,大模型开发和训练一次需要约1200万美元,这表明即使技术再领先的公司,大模型的训练也是非常昂贵的。
百川智能创始人CEO王小川也曾表示,每1亿参数对应训练成本在1.5到3万人民币之间。因此,一个千亿级参数的模型单次训练成本预估在三千万至五千万人民币之间。Anthropic的首席执行官Dario Amodei也预测过,未来两年内模型成本将达到100亿美元。
显然,API调用和研发的高昂价格,已经成了AI商业化的枷锁。久而久之,大模型就变成了有钱人的游戏,肯定不利于大规模商业化。
而价格战就成了最直接且最快速的落地方式。但并不是所有企业都能加入进来,因为只有把大模型的研发成本尽可能的降低到最小,才有降价的空间和资本。
如前文所述,大模型最大的研发成本是算力,所以很多厂商往往会通过提高大模型的训练效率、降低推理成本两种手段来降本。
中国工程院院士郑纬民曾做过这样的计算,在大模型训练的过程中,70%的开销要花在算力上;推理过程中95%的花费也是在算力上。为何在推理上做文章,也就不言而喻了。
比如微软在Microsoft Build 2020 上,公开了为GPT-3提供支持的AI supercomputing超级计算机,其可以让大模型的训练效率比其他平台高16倍,从而降低时间成本与风险成本。
国产大模型也不例外。盘古大模型早在2.0版本中,就尝试用稀疏+稠密架构,来降低训练成本。文心一言推出一个月后,也通过技术手段将大模型的推理性能提升近10倍,推理成本降到原来的十分之一。
阿里云通义大模型则聚焦于规模定理,基于小模型数据分布、规则和配比,研究大规模参数规模下如何提升模型能力,并通过对底层灵骏集群的优化,将模型训练效率提升了30%,训练稳定性提升了15%。
而腾讯选择了一条不同于百度和阿里的路子,其将机器学习框架Angel、训练以及推理框架进行迭代升级,其中,Angel可以将大模型训练效率提升至主流开源框架的2.6倍,千亿级大模型训练可节省50%算力成本。
训练框架方面,腾讯自研机器学习训练框架AngelPTM,可针对预训练、模型精调和强化学习等全流程进行加速和优化,实现以更少的资源和更快的速度训练更大的模型;推理方面,腾讯推出大模型推理框架AngelHCF,通过扩展并行能力,实现更快的推理性能和更低成本,相较于业界主流框架,其推理速度提高了1.3倍。
观察下来,阿里、腾讯、字节的商业化路径基本趋同,即“迭代通用模型的能力+构建完整的生态+研发创新型AI产品”,但也有不同的侧重点。
去年至今,国内几家大厂都在持续迭代大模型的能力,百度先发制人于去年3月推出文心一言,目前文心大模型已经迭代至4.0版本,同时还推出了多个轻量级大语言模型。其后是阿里,去年4月通义千问大模型问世,经过2.0、2.1现已迭代至2.5版本。
腾讯算是BAT中最晚的一家,去年9月混元问世。随后,腾讯并没有像前两者一样,通过迭代新版本来扩大声量,而是通过技术能力彰显其实用性。诸如升级机器学习框架Angel、机器学习训练框架AngelPTM以及大模型推理框架AngelHCF。另外,腾讯前段时间还开源了文生图大模型,包括后续文生视频能力的升级,通过这一些列动作让大模型渗透到千行百业。
而字节算是最特殊的一家,其仅用一年的时间就将豆包模型从1.0进化到了3.0,而从今年火山引擎发布的豆包模型家族中看,不仅包括两款通用模型 pro、lite,还推出了7款功能性模型,涵盖角色扮演、语音识别、语音合成、声音复刻、文生图等方面。说明火山引擎未来将深入到不同行业不同场景。
众所周知,调用量的大小会直接影响模型的效果,在这方面,目前文心大模型日调用量达到2亿,通义大模型也已过亿,字节豆包大模型的日调用量达到1200亿tokens(约1800亿汉字)。
生态构建方面,几家大厂包括百度、阿里、字节火山引擎等都采取了一个相同的路径——构建大模型平台,不仅提供自家模型服务还接入了第三方开源大模型,方便客户按需调用。诸如百度智能云千帆大模型平台,阿里的百炼平台、腾讯元器以及火山引擎的方舟平台。
为了加速大模型渗透,拓展商业化市场的空间。阿里坚定开源,去年8月通义开源,之后沿着“全模态、全尺寸”的开源路线,阿里云开源了 8 款参数规模从 5 亿到 1100 亿的大语言模型。其中,面向端侧设备,开源了如0.5B、1.8B、4B、7B、14B小尺寸模型;面对企业级用户,开源了如72B、110B的大尺寸模型。此外,通义还开源了视觉、音频、代码、混合专家模型。
而阿里的开源要追溯到2022年,也就是在大模型爆火的前一年,阿里云就完成了魔搭(ModelScope)社区的搭建,该社区推出阿里就把其近五年研发的 300 多个优质模型全部开源出来。周靖人还介绍道,魔搭社区平台仍在持续扩大建设,平台上的高质量开源模型总数已超过 4500 个,开发者数量也已超过500 万。
与阿里一样,腾讯在大模型商业化的竞逐赛中,同样选择了开源路线。不久前,腾讯云全面开源了混元文生图模型。腾讯混元模型应用负责人张锋表示,“在过去非大模型时代,我们就开源了很多项目,在大模型时代做出开源的决定,是最近半年腾讯与客户接触过程中得出的结论。”
而最早入局的百度却一直在坚持闭源路线。百度认为,闭源大模型能实现比开源大模型性能更好、成本更低的综合效果,从而促进AI应用生态的繁荣。
AI重构内部产品,是大厂进行大模型商业化的第一站。
目前,百度已经完成了对百度文库、百度搜索、百度地图、如流等业务的AI重构。阿里则对钉钉、高德地图、闲鱼、饿了么、优酷、盒马、淘票票,天猫、淘宝等阿里集团最核心的产品进行了全面升级。
字节内部也开启了赛马机制,抖音、剪映等50多个业务线各自为营开始了AI探索,此外,字节也不改“App工厂”的本色。过去一年里,除了主打的豆包App外,基于豆包大模型,还推出了互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具。
而腾讯作为大模型中最低调的一家,却在产品侧表现的尤为不低调。秉持着产业实用的原则,自去年9月混元上线以来,腾讯就将内部产品的AI化改造作为重点工作推进,目前,混元大模型已经在超600个腾讯内部业务和场景中落地。包括企业微信、腾讯会议、腾讯文档等“一门三杰”产品,也包括腾讯乐享、腾讯电子签、腾讯问卷、腾讯云AI代码助手等协作SaaS产品。
无论是通用模型还是行业模型,最终的落地其实就是要解决特定行业、特定场景下的实际难题。当然在行业的选择上,有交叉,也有不同的方向。
基于文心大模型,百度率先重构了数字政府、金融、工业、交通四大行业解决方案;依托腾讯云TI平台,腾讯云打造了行业大模型精选商店,覆盖金融、文旅、政务、传媒、教育等十个行业,可提供超50个解决方案。同时,腾讯云还携手17家来自不同行业的生态伙伴,发起了“腾讯云行业大模型生态计划”,致力于共同推进大模型在产业领域的创新和落地。
阿里也于去年发布了8个行业大模型,覆盖金融、医疗、法律、编程、个性化创作等领域。
而据信息显示,目前火山引擎已经与吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商成立了汽车大模型生态联盟。同时,还与OPPO、vivo、荣耀、小米及华硕等终端厂商共同成立了智能终端大模型联盟。由此推断,火山引擎很可能率先这两个行业作为抓手,待成熟后再向其他行业渗透。
经过一年的时间,大模型的竞争已经从卷大模型技术本身,过渡到了卷大模型商业化的阶段。
如大模型研发一样,大模型的商业化落地同样不是一件易事,前者考验的更多的是技术和资本,而后者在前者的基础上,还需要根据不同行业、不同的业务场景,对大模型进行微调,从而提供一款真正能为企业所需的大模型服务。
目前,各大模型厂商纷纷亮剑,但这只是开始,接下来很长一段时间内,各头部将持续围绕如何加快大模型落地做文章,竞争的同时,也会把大模型推向一个新的发展阶段。