天极大咖秀

登录 | 申请注册

多模态与AI搜索的全球科技竞速:中国AI,且信天工

脑极体 2024-05-30 阅读: 3,212 次

从全球视野看,OpenAI、谷歌等AI巨头,以及百度、昆仑万维等中国科技公司,作为推动技术创新的关键力量,成为各自地区AI发展的风向标。

不同地区的AI企业各有千秋,但技术发展的潮水方向却大体相同,那就是:技术做高,产品做广

所谓技术做高,指的是模型能力的持续进阶。比如今年4月17日开启公测的天工3.0,就是全球首个多模态“超级模型”(Super Model),具备多模态、搜索增强等能力,同期,又接连发布了全球首个开源AI音乐大模型SOTA。而随后5月份OpenAI发布的最新大模型GPT-4o,也强调了多模态大一统的能力,谷歌也在随后的Gemini Astra中展示了类似能力。

所谓产品做广,指的是模型落地需要丰富的软硬件产品作为支撑。这一点上,相比“OpenAI+微软”的合作模式,谷歌、昆仑万维这样“自有模型+自有产品生态”自成一派的厂商,更容易加速AI产品化。比如天工AI在去年就已经推出的中国第一款AI搜索,刚刚上线的全网唯一AI视频转绘功能,天工AI俨然已经实现了AI搜索、文生图、图像处理、AI PPT、AI动漫、AI音乐、AI视频转绘等多元应用,日活跃用户数已经突破百万,成为中国头部AIGC资深玩家。

谷歌也在I/O开发者大会一口气拿出来十来款新品及升级,展现出了极强的商业潜力,会后带动了谷歌的股价上涨。

说到这里,想必读者们已经发现了,昆仑万维的天工AI与谷歌的Gemini,在技术路线和产品能力上具备相似性,而且目前针对C端用户完全免费,而且覆盖各种设备、使用场景的需求。

这让我想到了宋代词人一首鼓励学子“赶考”的词:看蒲质易凋,何如松茂,菊花已老,须是梅开。万事何难,时来得做,且信天工次第排。从今去,愿径游璧水,直上兰台。

如果我们将科技企业的技术创新,看作是一场“赶考”,那么有理由相信,AI搜索、多模态等最新考题,对中国企业并不是很大的困难。只要坚持去做,时机一到,便会如经过寒夜的梅花一般绽放。

至少,最新的AI产品,比如谷歌在海外独占优势的AI搜索,以及时下正处于大模型金字塔尖的多模态,天工3.0都具备上述特性。

从这一点上看,中国AI,终于有了一点“万事何难,时来得做,且信天工”的淡定。

我们不妨借着当下最火的两大AI能力说开去,聊聊昆仑万维天工3.0是如何做到一流水平的,以及天工大模型这一株“AI梅花”开放的过程。

AI搜索:天工3.0与谷歌的独特芬芳

放眼全球,仅有在搜索业务上有底蕴、模型技术上有创新的厂商,比如谷歌、昆仑万维、百度等,以及背靠亚马逊的新秀Perplexity,才能在搜索效率、智能性、个性化体验上取得突破,培育出AI搜索这一独具特色的成果,为用户带来了前所未有的搜索体验。

为什么AI搜索是头部大模型厂商的关键赛点?一是体验优势,传统搜索引擎的精准度不高,用户容易被各种广告和钓鱼帖干扰,在海量信息里大海捞针,搜索效率与体验都急需得到改善;二是流量优势,早在传统互联网时代,搜索引擎就是流量汇聚的入口,也是商业价值的体现,到了AIGC时代,人类创作、AI创作的内容规模更是非线性增长,用户找到想要信息的难度也前所未有地增大,搜索工具变得更为重要,虹吸流量的能力毋庸置疑。

最近的谷歌I/O发布会上,就推出了许多基于Gemini大模型的搜索功能。幸好,通过天工3.0,我们也能欣赏到中国“AI搜索”的独特魅力。

目前,一流水平的AI搜索,有三个能力值得关注:

能力一:多模态,图文并茂的搜索体验。

多模态搜索是一种先进的搜索技术,允许用户通过多种类型的数据(模态)进行搜索查询,能够更全面地理解和响应用户的查询需求,提供更加丰富和准确的搜索结果。目前,仅有昆仑万维、谷歌等少数厂商,可以将文本、图片、音频、脑图等多形态答案集成在一起,给用户图文并茂的搜索体验。

比如,当用户要求大模型提供一个三天的膳食计划:

OpenAI的GPT-4只支持文字版本,菜品啥样全靠用户自己想象:

谷歌最新的Gemini大模型,则支持图文双模态搜索:

天工3.0则支持多模态一体化搜索:

能力二:更强推理,复杂任务轻松搞定。

模型能力的提升,带来了更强的逻辑推理能力,也让搜索从传统的“被动呈现”进阶为AIGC的“主动生成”。比如天工3.0通过4000亿级参数MoE混合专家模型,在模型语义理解、逻辑推理,以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升,从而在实际应用中更加准确和高效地处理信息。

在天工的“搜索增强”模式中,在分析某个具体行业的信息时,或者遇到宽泛问题时,天工AI能够实现总结相关事件、拆解产业链地图等复杂功能,或者拆解问题进行多步骤推理,并以结构化或思维导图以及PPT的形式进行最终展示。

我们一起来试试报志愿相关问题,会发现天工AI可以将问题所涉及的领域逐一推理拆解,这与Gemini重磅出击的多步骤推理完全是一个逻辑。

我们再来举个例子,当用户在搜索A新能源汽车时,想跟B品牌进行参数对比,不需要自己在不同网页间反复横跳,天工3.0支持多个产品横向对比,智能整合全网优质信息,并输出图表,通过AIGC减少用户的操作步骤,让关键信息一览无余。

在此基础上,搜索还可以更进一步吗?让AI帮助用户整理分析既有信息,直接给出深度结果,也就是“搜索+分析+生成”合二为一,从检索工具变成智慧的个人助手,这可能吗?

天工3.0新增的搜索增强、多次调用联网搜索、Agent等能力,支持复杂问题深度拆解,agent智能体能够独立完成规划、调用、组合外部工具及信息,以精准高效地完成产业分析、产品对比等各类复杂需求。

数万字的市场调研报告、高级学术研究、企业研报、白皮书等任务,天工3.0都可以快速完成,并且每个搜索落地页都支持AI速读,一键生成AI摘要和要点提炼,其中有任何不懂的地方,还可以随时通过【聊天】功能向AI助手发起多轮对话提问。

对于平时要阅读大量产业研究报告、AI论文的创作者来说,我明显体会到,这一套搜索增强的“组合拳”,确实能帮日常工作提升效率、减轻负担。搜索的结果还可以用大纲、脑图的丰富形式呈现,非常清晰。

能力三:紧跟时事,搜索生成也可以很有时效性。

大模型的训练周期较长,需要大量数据,而数据集的收集、整理和更新是一个耗时的过程。因此,大多数大模型在发布时都有一个明确的“知识截止日期”,即模型所包含的知识信息只更新到这个日期为止。超过这个日期的信息,模型可能就无法准确提供。

这意味着,用户在搜索一些时效性很强的信息时,比如最新的新闻事件、旅游规划需要的实时信息、航班天气股市等动态信息搜索查询,部分AI搜索提供的结果,可能缺乏准确性和时效性。解决大模型的时效性问题,是昆仑万维、谷歌等头部厂商都在努力的目标。

前不久谷歌的发布会上,就推出了支持“旅游规划”的实时搜索demo,天工3.0的AI搜索产品,则是国内唯一能够支持实时天气、股市、星座运势等信息查询的AI产品,能够同时生成特定卡片和对应文本分析。有了这个功能,真的可以把手机上的n个软件都卸载掉了。

从上述三大能力,可以看到基于“超级模型”做出的AI搜索产品,正在前所未有地改变全球用户的搜索体验。AI搜索,已经成为昆仑万维、谷歌等独特的护城河,也是大模型底座上生长出的独特的一枝梅花,散发着“人无我有,人有我强”的技术芬芳。

多模态:超级模型底座上长出的应用繁花

作为全球首个多模态“超级模型(Super Model)”,天工3.0集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体,目前没有任何一款AI工具集这么多模型能力于一身,在多模态领域是当之无愧的先锋。

在天工3.0这棵“梅树”的根基上,昆仑万维凭借“All in AGI 与 AIGC” 战略,已经孕育出了众多的应用花蕾,支持AIGC时代的内容创作。

对于创作者来说,可以通过天工大模型获得多种模态的模型能力,处理多种不同类型的数据输入,包括:

视频模态。天工3.0 AI视频转绘,可以实现自动化的视频生成,将现有的视频内容自动转换成不同的风格或格式,像Sora一样辅助用户实现创意视频项目的制作。

音频数据。天工SkyMusic音乐大模型SOTA,是全球首款对标suno的音乐大模型,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,助力音乐创作者生成高质量的AI音乐。尤为特别的是,SOTA支持粤语、成都话、北京话等众多方言,让用户能够更自由地实现音乐表达,传播方言文化。这一大模型的推出,不仅展现了中国在AI音乐生成领域的技术实力,也为音乐产业带来了新的可能性。浅浅展示一段天工AI音乐创作的作品,依然是完全免费,还无需担心版权问题。

智能体。在多模态环境中,智能体可以整合不同模态的信息,提供更加丰富和智能的交互体验。天工3.0支持用户创建智能体,实现个性化的服务和交互体验,是大模型技术应用的一种重要方式,可以推动大模型技术的创新、普及和商业化。

PPT。PPT演示文稿的制作,需要结合文本、图像、图表、视频和音频等多种模态。

天工AI的PPT生成功能可以快速将文本内容转换成PPT幻灯片,提高制作PPT的效率,并且支持WEB端和APP端,意味着无论是在电脑上还是手机上,用户都可以方便地使用这一功能来提升生产力。5分钟做完一份优质的PPT,再也不是难事,而且完全免费,不需要你在下载文件前支付任何费用。

图表。视觉表示的数据,如条形图、饼图、折线图等,在数据分析、信息可视化、商业智能等领域中非常重要。最新的天工3.0大模型,可以自动生成各种图表,并分析结果,自动生成报告或总结,与用户进行互动,提供基于数据的深入见解。

放眼全球大模型竞赛,不同模态的相互补充、统一、协作,可以提供更全面的理解能力,大幅提升AIGC在行业的应用效果。因此,多模态绝对是一个主流方向,无论是OpenAI的GPT系列,还是谷歌的Gemini家族,都以此为发展方向,覆盖多种模态。幸好,天工3.0为代表的中国大模型梯队,也并不逊色。

基于天工系列大模型,昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI社交、AI动漫、AI游戏等AI业务矩阵,AI应用场景的一个个绽放,中国AI的花香已扑面而来。

梅香清且远,AI春已至

值得一提的是,相比OpenAI和谷歌的ToC色彩,中国AI有着更为丰富、广阔的应用场景,不仅ToC应用的用户规模庞大,ToB/ToG政企市场将AIGC作为千行万业提质增效的把手,产业智能的前景也格外广阔。

栽种一棵基础模型的梅树,培育AIGC的应用繁花,天工大模型成为产业智能化的一道风景。昆仑万维作为AI园丁,有着独特的气质:

1.极长的耕耘耐心。

AI创新需要在土壤和时间中蕴育,昆仑万维2019年布局AIGC的前瞻性格局。以AI搜索为例,昆仑万维的自研实力来自长期主义战略。

2.极强的工程能力和产品匠心。

基座模型达到一定参数,接下来比拼的是谁能把工程化、产品化做得更好。以AI搜索为例,“魔鬼都藏在细节中”,比如怎么消除大模型的幻觉,哪些问题深度要求高,哪些问题实时性要求高,做出对应的处理,体现出不同产品的区别,直接影响到用户体验,需要体系化的工程能力和产品设计能力。这一点,天工AI有大量产业实际,比如用天工AI搜索写公文引用官方媒体,获得政府用户的信任。

3.极高的人才密度。

人才是AI创新的前提和基础。只有拥有一支强大的人才队伍,AI企业才能不断推动技术创新,开发出更多有价值的产品和服务,从这一点来说,基础大模型领域呈现出“强者益强”,头部AI巨头大厂与其他中小厂的差距不断拉大。以昆仑万维为例,整个大模型研发中心高级算法工程师多达300人+,其中海内外名校博士100+,大量人才来自微软、阿里、百度,人才规模具备明显实力优势。

昆仑万维作为国内模型技术与工程能力最强、布局最全面的人工智能企业之一,可以打出一套全球AI产品组合拳,一套覆盖ToC/ToB/ToG多个市场的商业组合拳。

“待到山花烂漫时,她在丛中笑”,面对OpenAI和谷歌等世界一流AI巨头,天工AI正绽放出梅花一般自信的微笑。当我们轻嗅着中国AIGC应用的阵阵芬芳,可以说一句:万事何难,且信天工

体验基于多模态大模型的AI搜索,可前往天工3.0官网。

脑极体
从技术协同到产业革命,从智能密钥到已知尽头

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)