大模型真的会“好事多模”吗？

脑极体 2023-08-02 阅读： 5,094 次

自从2018年谷歌发布BERT之后

到ChatGPT在火爆全球

大模型的超强能力以及背后的吸金属性

吸引着无数厂商对其趋之若鹜

纷纷投入到炼大模型的热潮中去

这大模型不仅是越来越大

模态还越“堆”越多

多模态大模型到底是个啥？

讲到这里，我们先来说说

多模态大模型中的

这个“多模态”到底是个啥

多模态的概念源于德国生理学家

赫尔姆霍茨提出的“感觉道”

加被称为“感觉通道”

主要探讨了人类在感知和认知过程中

多种感官的相互作用和协同工作

如视觉、听觉、触觉、味觉和嗅觉等

在人工智能领域

多模态意味着算法可以处理不止一个模态的数据

可以在文本、图像、音频等

多种类型的数据中理解、转译、生成

有效提高大模型处理多种信息的

准确性和鲁棒性

比如多模态大模型

理解文字和图片两种模态的数据

就能以文生图，让画手直面职业危机

理解音频、视频、图片多种形态的数据

在生成工业质检模型时

就能实现视频分析、图片分析

甚至音频分析等多样化的选择

自从OpenAI发布多模态大模型GPT-4后

全球各大厂商便又开始朝着“好事多模”进发

这模态越“堆”越多

前一段时间还出现了

六模态大模型和全模态大模型……

“堆模态”是喜还是忧？

看着大家争相发布多模态大模型

突然就有一个问题：

大模型的模态越多就真的越好吗？

答案却是……不一定。

举个例子，如果你要建造一栋房子

你会选择使用多少种不同的材料呢？

显然，选择过多的材料会导致

建筑成本增加、建设时间、精力增加等问题

而多模态大模型的模态过多

也会导致一些问题的出现，比如：

1.多模态不等于凑模态

如今厂商们都在争先恐后的发布

自家的多模态大模型

其中当然有许多精品

但也不乏粗制滥造的水货

比如在自然语言处理中

增加一个文字转换语音的功能

就生成自己家练出了多模态

2.多模态=高成本

算力资源是各大公司进入炼大模型的入场券

数据更熟训练大模型的关键

模态越多大模型

训练所需要的算力就越多

数据量也就越丰富

如果公司一味要求模态的丰富

最终很可能导致大模型模态多而不精

反而得不偿失

3.多模态不等于好落地

上文也提到了

多模态大模型在处理复杂的应用场景时

可能更加有效

然而不同的应用场景对模态的需求是不同的

例如，在自然语言处理领域

对于一些特定任务

如情感分析或文本分类

使用单一的文本模态可能已经足够

而不需要额外的图像或音频模态

“贪多嚼不烂”这句俗语

如今也可以用在炼大模型上

厂家们在决定“堆模态”前

不妨先考虑一下

落地场景、数据质量、算力资源等综合因素

适当选择模型结构

切记模型虽好，但不能贪多哦！

: 脑极体; 从技术协同到产业革命，从智能密钥到已知尽头

关注作者

八面来风

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)