天极大咖秀

登录 | 申请注册

生成式AI缠斗正酣 大戏才刚开始

DI数智观察 2023-10-07 阅读: 2,960 次
生成式AI或将颠覆互联网经济,创造下一个科技巨头。这已成为当前业界的一大共识。Gartner认为生成式AI将成为一种通用技术,其影响堪比蒸汽机、电力和互联网。也正因为如此,全球科技巨头和AI厂商纷纷下场,唯恐错过此番科技盛宴。在刚刚过去的9月,各大厂商更是八仙过海,各显神通。
封面
OpenAI力甩追兵
OpenAI于去年11月发布了聊天机器人ChatGPT,点燃了硅谷当前的人工智能热潮。对于很多人来说,了解大语言模型、生成式AI就是从OpenAI的ChatGPT开始的。

ChatGPT允许任何人根据简单的基于文本的prompt生成文章、诗歌和摘要。来自OpenAI的消息称,ChatGPT发布后的五天内就收到了超过100万的注册;两个月后,活跃用户突破1 亿。3月14 日,OpenAI发布了GPT-4,在技术层面实现了“遥遥领先”。

除了ChatGPT,OpenAI还拥有基于AI的图像生成工具DALL・E,该工具在近日完成了第三次迭代,此外还有语音识别模型Whisper AI。

由此,OpenAI已经成为全球最有价值的初创企业之一。OpenAI的商业收入主要自ChatGPT Plus 的个人用户付费,以及企业级服务收入。OpenAI曾于今年8月下旬表示,预计2023年其收入将达到10 亿美元。

然而,尽管OpenAI显山露水之后,后面就跟着微软、谷歌、Meta等一大批巨头。显然,尽管是初生牛犊,率先坐到生成式AI头把交椅上的OpenAI难有安全感,而是不停前行以保证领先优势。

9月27日,OpenAI称为ChatGPT增加了“听”和“看”的多模态能力。也就是说,ChatGPT可借助Bing搜索进行语音和图像创建,从而使得其能够与Microsoft的AI辅助搜索引擎和谷歌的Bard聊天机器人竞争。

升级后,用户可以与ChatGPT进行来回对话,在晚餐时的讨论中问清事实,或者让它处理诸如儿童睡前故事之类的事情;ChatGPT用户还可以在旅行时拍摄当地地标照片,并与ChatGPT进行实时对话,了解该地的有趣之处;用户还可以拍下冰箱和贮藏室的照片让ChatGPT建议晚餐吃什么,以及响应的做法……

然而,OpenAI依然面临很多亟待解决的问题,例如人工智能幻觉、算力的成本高昂和资源短缺、隐私与版权、盈利模式等问题,这些也都是生成式AI领域各大参与者共同面临的问题。谁最先处理好这些问题,谁就最有可能最先脱颖而出。

微软期待再续辉煌
微软微软在生成式AI领域的出众表现出乎很多人的预料,也让曾被认为已经日薄西山的微软重新焕发了生机,甚至再续辉煌。

生产式AI狂潮是随着OpenAI的GhatGPT而来的,手握OpenAI 49%股份的微软无疑占据了先发优势。微软正在将OpenAI的技术整合到旗下业务的多个领域,包括Bing和Office,以此挑战另一人工智能巨头谷歌。

代表微软全力进军生成式AI领域的是“AI助手”Copilot。种种迹象表明,微软已经将Copilot看作是其重复上个世纪90年代的辉煌的抓手,并且不遗余力地进行更新换代。微软已通过Copilot的渗透,实现了从“AI+产品”到“AI+操作系统”的过渡。

微软CEO萨提亚·纳德拉近日公开表示,他们相信Copilot将从根本上改变用户与技术的关系,并开创个人计算机的新时代——智能副驾时代。

微软于今年3月推出Microsoft 365 Copilot,将大语言模型GPT-4的能力引入Office办公软件中。两个月后,微软又在5月宣布为Windows 11添加“AI助手”Copilot。

微软近日在纽约举行的发布会上宣布,将在Windows 11操作系统中推出全新统一的Copilot体验,旨在帮助用户更好地组织和处理跨Windows 11和办公软件Microsoft 365的所有数据。

其中,Windows 11操作系统的Copilot于9月26日开始以更新的方式推送,除了此前发布会上提到过的系统级别AI助手外,系统自带的照片、画图、记事本、邮件等应用也齐步迈入了AI时代。微软表示,本次更新涵盖Copilot在内的超过150个新功能。

除了增强版Copilot,微软还宣布Microsoft 365 Copilot企业版将于11月1日全面上市。在定价方面,和之前7月宣布的一样,Copilot每月订阅费用为30美元。

对此,纳德拉表示,目前微软在准备的一系列软件更新让他感到很兴奋,“就像是回到了90年代,我们正处于一个能够带来更多软件革新并真正享受这一过程的阶段”。

微软称,作为“日常AI伴侣”,Copilot将能够在“最常用的所有应用程序和体验中无缝使用”,包括Windows 11、Microsoft 365、Outlook邮箱、Edge浏览器和搜索引擎Bing。Copilot将会出现在桌面上和众多默认应用中,并可通过键盘快捷键或右键单击选择启动。

在获得相应的权限后,增强版Copilot能从日历、电子邮件、文档等处获取数据,帮助快速起草文本和电子邮件,并在Outlook等应用程序中提供实时建议。另外,Copilot还有许多其他的便捷功能,例如按优先级排列邮件、在Excel中实现数据可视化、解决照片中的数学问题,以及在电脑端获取用户手机(如短信)中的内容。

谷歌奋起直追
谷歌图灵奖得主LeCun认为,OpenAI的ChatGPT不是什么革命性的东西,只是组合得够好。这主要是指OpenAI的GPT系列模型借鉴了谷歌Transformer、Instruction Tuning、RLHF和“思维链”等的技术基础。

然而,在AI领域一直领先的谷歌此次却没有先拔头筹,而是在努力追赶着。产业数字化加油站统计,自今年3月发布Bard以回应OpenAI广受欢迎的ChatGPT以来,谷歌已经对Bard进行了10次更新。

但是业界普遍认为,Bard的人工智能功能不如ChatGPT强大,对话不如ChatGPT复杂。ChatGPT仍然是最受关注的聊天机器人。根据网站分析公司Similarweb的数据,今年8 月,Bard的访问量为1.83 亿次,仅是ChatGPT 同期访问量的13%。

根据纽约时报报道,谷歌于9月19日公布了一项超越ChatGPT的计划,将Bard连接到其最受欢迎的消费者服务,如Gmail、Docs和YouTube。凭借这些新功能,谷歌迈出了一步,将Bard与谷歌庞大的在线产品群联系起来。此举被业界认为是谷歌挑战微软的重要一着棋。

谷歌表示,这是Bard迄今为止功能最强大的版本,可以帮助全球用户提高协作效率。有分析认为,更新后的Bard可能更接近于成为用户的个性化助手。

与Copilot在Word、Outlook、Teams、Excel、PowerPoint和其他应用程序中充当助手一样,Bard可以自动化任务。Bard Extensions可以充当自然语言助手,在Google应用程序中搜索信息。用户可以搜索Google文档、汇总Gmail邮件,甚至帮助计划旅行和查看Google航班上的航空公司价格。

例如,在计划旅行时,用户可以要求Bard在Gmail上获取合适的出行日期,查找实时航班和酒店信息,使用谷歌地图获取前往机场的路线,甚至通过观看YouTube视频了解在目的地可做的事情。所有这些都可在一次对话中完成。

Bard的此次更新,还有两项新功能非常值得关注:

其一,“google it”缓解生成式人工智能的一大困扰——人工智能“幻觉”。用户可以通过“Google It”的按键一键核查Bard给出的答案是否准确。用户可以看到Bard的答案中哪些部分与谷歌搜索结果不同,哪些部分与之一致:经过搜索并验证的信息将以绿色突出,而任何未经验证的答案将以橙色突出显示。

其二,有人通过Bard 的公开链接功能与用户分享Bard对话时,用户可以使用自己的账号接着这些对话继续聊。来自谷歌的信息称,之所以推出这一功能,是因为用户经常从其他人那里获取灵感,接触到的想法越多,就越有可能提出真正创新的想法;因此希望通过该功能支持用户更轻松地将他人分享的对话作为切入点,展开自己的创意探索。

据悉,Bard之所以能够实现所有这些新功能,是因为谷歌对PaLM 2 模型进行了更新。PalLM 2,是迄今为止谷歌能力最强的模型。谷歌采用了最先进的强化学习技术来训练PaLM 2,让它更加直观,也更有想象力。

这不是谷歌第一次涉足生成式AI助手。上个月,该公司宣布其Duet AI已普遍可用于Workspace生产力应用程序。Duet AI的定价是每位用户每月30美元,使该工具的价格与竞争对手Microsoft即将推出的Copilot一致。

Meta另辟蹊径
meta1Meta早已经把重心放在元宇宙上,因而其在生成式AI领域的成就,往往被忽略。但是AI本身就是元宇宙的重要组成部分。Meta发展元宇宙绕不开的人工智能。因此对于生成式AI,Meta理应可以信手拈来。

面对生成式AI热潮,Meta不可能不重视。也因为如此,在9月27日Meta举办的年度开发者大会Connect上,AI成为重中之重。Meta推出了各种聊天机器人计划。这些聊天机器人嵌入到特定应用中,包括WhatsApp、Messenger和Instagram。

有分析认为,Meta AI 助手,看起来与OpenAI的ChatGPT和Anthropic的Claude 2等聊天机器人非常相似。

新的Meta AI机器人目前处于测试阶段,由Meta的Llama 2大型语言模型(LLM)的各种迭代提供支持。有分析认为,Meta的Llama 2和OpenAI的GPT 4差别并不大,主要在于面向不同应用的定制。

Gartner杰出副总裁分析师Arun Chandrasekaran认为,Meta此次发布的关键在于没有使用一个通用大模型,而是为不同的应用程序创建多个不同的模型。例如,Instagram的用户和用例与WhatsApp的用户和用例非常不同。这是Meta的独特之处。

服务于生产式AI的大语言模型训练周期长,且使用成本高昂。就目前来看,半导体行业目前已经无法满足快速增长的AI行业需求。而更小、更关注行业或业务的模型可以为量身定制的业务提供更好的结果。

尽管Meta通用大语言模型Llama拥有超过4000 亿个参数,但随着Meta AI聊天机器人的推出而发布的白皮书指出,有较小的70亿和130亿参数模型等。参数越少,大语言模型就越高效和可定制,而不会给服务器CPU带来额外的压力,GPU内存的开销e可以忽略不计。

在功能上,除了提供文本回复外,Meta AI 聊天机器人还可以访问Bing 搜索引擎以获取实时信息,这些信息可用于从文本提示生成“逼真”图像,以便在聊天时共享。

Meta还创建了28个由名人和文化偶像扮演的AI聊天机器人,如顶流超模肯豆·詹娜、NBA巨星保罗、美国橄榄球传奇球星汤姆·布雷迪、美国饶舌歌手Snoop Dogg和上代顶流名媛帕丽斯·希尔顿。名人聊天机器人可以提供有关体育训练、烹饪建议、DIY帮助的提示等。而NFL四分卫汤姆·布雷迪的聊天机器人角色被称为“布鲁”,是一名“不出拳”但妙语连珠的体育辩论家。

Meta计划在未来几周内添加新的聊天机器人角色,由Bear Grylls、Chloe Kim、Josh Richards 等人扮演。Meta表示,他们一直在创造具有更多个性、观点和兴趣的人工智能,并且与之互动更有趣;他们正在向Ray-Ban Meta智能眼镜和Quest 3虚拟现实耳机推出AI聊天机器人。

Meta 也一直活跃在AI领域的开源社区。根据Chandrasekaran的说法,该公司一直在开源与OpenAI的GPT 3.5和GPT 4模型相当的生成式AI模型。他分析说,Meta尝试在做不同的事情,在生成式AI生态系统中,采用更倾向于开源的方式,这一点非常值得注意。

他强调,一直以来Meta都不是以企业的身份参与其中,而是通过开源方面的努力,值得诸如大型银行这样的客户开始关注Meta AI 的模型。

文心一言引领中国军团

在生成式AI这股热潮中,中国势力是最强劲的一股。别的且不说,“百模大战”是势头就够唬人的了。其中,百度“文心一言”首当其冲,其也被认为是ChatGPT在我国的重要竞争对手。

继搜索引擎后,百度一直努力试图在人工智能领域有所作为,生成式AI无疑是一个绝佳的切入点。更何况此时“中国的ChatGPT”的呼声高涨。

面临如此难得的机会,百度创始人、董事长兼首席执行官李彦宏在3月16日百度“文心一言”发布时表现得相当谨慎。

“生成式AI代表着新的技术范式,是任何企业都不应错过的大机会。”李彦宏说。

尽管人们对文心一言褒贬不一,但是不能忽视的是,发布会前宣告接入文心一言的机构就应接不暇;发布会后,各种深化合作的新闻接连不断。

这也是为什么早在文心一言推出之初,就有业内资深人士预测,文心一言最有可能在我国众多生成式AI中脱颖而出,因为其一早就受到众多合作伙伴的支持,最有可能落地应用。而业界普遍认为,生成式AI成败与否,除了要看支撑其的大模型的能力、大模型的企业服务能力和全栈技术积累程度,更重要的是,还要看能不能真正落地应用给用户带来价值。

8月31日,百度率先向全社会全面开放文心一言。用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”体验。百度还将开放一批经过全新重构的AI原生应用,让用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。百度此举旨在获得大量真实世界中的人工反馈,从而进一步改进基础模型,并以更快速度迭代文心一言,以创造更好的用户体验。

为了帮助文心一言获取实时资讯、专业知识或使用第三方服务或工具,实现更强大的功能体验,百度还建立了文心一言插件市场,并广泛邀请合作伙伴入驻。9月13日,百度在百度联盟大会上发布文心一言插件生态平台“灵境矩阵”,向开发者开启邀测,并提供百亿流量、亿元基金等激励措施,扶持插件生态建设。

如此看来,早先有OpenAI和微软由于先发优势坐上的头吧交椅,远未稳固。生成式AI的大戏刚刚开始。

DI数智观察
理性观察数智发展 探寻产业升级密码

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)